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内 容 提 要 

















Python 作为 一 种 高 级 程序 设计 语言 ， 凭 借 其 简洁 、 易 读 及 可 扩展 性 日 渐 成 为 程序 设计 
领域 备 受 推崇 的 语言 ， 并 成 为 数据 科学 家 的 首选 之 

本 书 详细 介绍 了 Python 在 数据 科学 中 的 应 用 ， 包 括 数据 探索 、 数 据 分 析 与 挖掘、 机 器 
学 习 、 大 规模 机 器 学 习 等 主题 。 每 一 章 都 为 读者 提供 了 足够 的 数学 知识 和 代码 示例 来 理解 
不 同 深度 的 算法 功能 ， 帮 助 读 者 更 好 地 掌握 各 个 知识 点 。 

本 书 内 容 结构 清晰 ， 示 例 完 整 ， 无 论 是 数据 科学 领域 的 新 手 
学 家 都 将 从 中 获 益 。 















































































































































是 经 验 丰富 的 数据 科 
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译 者 简介 





























方 延 风 ， 高 级 工程 师 ， 现 在 福建 省 科学 技术 信息 研究 所 任职 ， 毕 业 于 清华 大 学 ， 获 得 
计算 机 技术 工程 硕士 学 位 ， 美 国 俄勒冈 大 学 访问 学 者 ， 曾 出 版 过 多 本 计算 机 图 书 ， 目 前 的 
研究 方向 是 文本 数据 挖掘 、 自 然 语 言 处 理 (Natural Language Processing，NLP)、 信 息 检索 
技术 等 。 他 主要 翻译 了 第 1 章 及 第 6 一 10 章 的 内 容 。 

刘 丹 ， 副 教授 ,现任 福州 外 语 外 贸 学 院 物 流 系 副 主 任 。 她 主要 翻译 了 第 2—5 章 的 内 容 ， 


并 对 全 书 内 容 进行 了 校 译 。 
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作者 简介 


Gopi Subramanian 是 一 名 数据 科学 家 ， 他 在 数据 挖掘 与 机 器 学 习 领 域 有 着 超过 15 年 
的 经 验 。 在 过 去 的 10 年 中 ， 他 设计 、 构 思 、 开 发 并 领导 了 数据 挖掘 、 文 本 挖掘 、 自 然 语言 
处 理 、 信 息 提 取 和 检索 等 多 个 项 目 ， 涉 及 不 同 领域 和 商务 垂直 系统 ， 包 括 工 程 基础 设施 、 
消费 金融 、 医 疗 保健 和 材料 等 多 个 领域 。 在 忠诚 度 分 析 领 域 ， 他 构思 并 建立 了 创新 的 消费 
者 忠诚 度 模型 ， 设 计 了 企业 范围 的 个 性 化 促销 系统 。 他 在 美国 和 印度 的 专利 局 共计 申请 了 
10 多 项 专利 ， 并 以 自己 的 名 义 出 版 了 许多 书籍 。 目 前 ， 他 在 印度 的 班加罗尔 生活 和 工作 。 






























































































































































审 稿 人 简介 











Bastiaan Sjardin 是 一 位 在 人 工 智 能 、 数学 及 机 器 学 习 方 面 有 着 雄厚 实力 的 数据 科学 家 
和 企业 家 。 他 从 莱 顿 大 学 获得 了 认 知 科学 及 数理 统计 学 的 授课 型 硕士 学 位 。 在 过 去 的 5 年 
中 ， 他 参与 了 大 量 数据 科学 方面 的 项 目 ， 经 常 在 密歇根 大 学 社会 网 络 分 析 Coursera 课程 和 
约 朝 。 霍 普 金 斯 大 学 的 实用 机 器 学 习 课 程 上 担任 助教 。 他 和 常用 的 编程 语言 是 R 和 Python. 
目前 是 Quandbee Cwww.quandbee.com) 公司 的 联合 创始 人 ， 该 公司 专门 从 事 机 器 学 习 的 应 
程序 开发 。 
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如 今 ， 我 们 生活 在 一 个 万 物 互 联 的 世界 ， 每 天 都 在 产生 海量 数据 ， 不 可 能 依靠 人 力 去 
析 产 生 的 所 有 数据 并 做 出 决策 。 人 类 的 决策 越 来 越 多 地 被 计算 机 辅助 决策 所 取代 ， 这 也 
益 于 数据 科学 的 发 展 。 数 据 科学 已 经 深入 到 我 们 互联 世界 中 的 每 个 角落 ， 市 场 对 那些 十 

了 解数 据 科 学 算法 并 且 有 能 力 用 这 些 算法 进行 编程 的 人 才 需 求 是 不 断 增长 的 。 数 据 科学 
是 多 领域 交叉 的 ， 简 单列 举 几 个 : 数据 挖掘、 机 器 学 习 、 统 计 学 等 。 这 对 那些 渴望 成 为 数 
据 科 学 家 以 及 已 经 从 事 这 一 领域 的 人 们 在 各 方面 都 倍 感 压力 。 把 算法 当成 黑 盒子 应 用 到 决 
策 系统 里 ， 可 能 会 适得其反 。 面 对 着 无 数 的 算法 和 数 不 清 的 问题 ， 我 们 需要 充分 掌握 潜在 
的 算法 理论 ， 这 样 才能 给 每 个 指定 的 问题 选择 最 好 的 算法 。 

作为 一 门 编程 语言 ，Python 演变 至 今 ， 已 经 成 为 数据 科学 家 的 首选 之 一 。 在 快速 原型 
构建 方面 ， 它 能 充分 发 挥 了 脚本 语言 的 能 力 ， 对 于 成 熟 软件 的 开发 ， 它 精巧 的 语言 结构 也 
二 分 适合 ， 再 加 上 它 在 数值 计算 方面 神奇 的 库 ， 这 些 都 使 得 它 被 众多 数据 科学 家 和 一 般 的 
科学 编程 群体 所 推 深 。 不 仅 如 此 ， 由 于 Django 和 Flakweb 等 Web 框架 的 出 现 ，Python 在 
Web 开发 人 员 中 也 很 受 欢迎 。 

本 书 通 过 精心 编写 的 内 容 和 精 选 的 主题 来 满足 读者 的 需求 ， 无 论 是 新 手 还 是 经 验 丰 富 
的 数据 科学 家 都 将 从 中 获 益 。 本 书 的 内 容 涉 及 数据 科学 的 不 同方 面 ， 包 插 数 据 探索 、 数 据 
分 析 与 挖掘 、 机 器 学 习 、 大 规模 机 器 学 习 等 。 每 一 章 都 经 过 精心 编号， 带领 读者 探索 相关 
领域 。 本 书 为 读者 提供 了 足够 的 数学 知识 来 理解 不 同 深度 的 算法 功能 。 只 要 你 有 需求 ， 我 
们 都 能 为 好 学 的 读者 提供 充分 的 指导 ， 各 个 主题 都 十 分 便于 读者 学 习 和 理解 。 

本 书 给 读者 带 来 了 数据 科学 的 艺术 力 和 Python 编程 的 力量 , 并 帮助 他 们 掌握 数据 科学 
的 概念 。 了 解 Python 语言 并 不 是 死板 地 跟随 本 书 学 习 ， 非 Python 程序 员 可 以 从 第 1 章 开 
台 阅 读 ， 里 面 涵盖 了 Python 数据 结构 及 函数 编程 等 概念 。 
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2 Python 数据 科学 指南 ee 








前 几 音 涵盖 了 数据 科学 的 基础 知识 ， 后 面 的 章节 则 致力 于 高 级 数据 科学 算法 。 





























1 森林、 正则 化 回归 等 ， 书 中 将 会 详细 介绍 。 


Et 进 的 算法 已 经 引领 数据 科学 家 在 不 同 的 行业 实践 中 进行 探索 ， 这 些 算法 包括 外 

















前 最 
EXTA. 
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法 ， 例 如 旋转 森林 等 在 文 ! 
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法 背后 的 数学 原理 和 一 些 实施 中 的 细节 相 
。 每 一 个 主题 ， 恰 如 其 分 的 数学 久 
以 在 他 们 上 


的 应 月 
这 里 有 一 个 忠告 ， 
作为 成 品 在 极端 的 条 们 
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然 我 们 尽 可 能 
































I 识 讲解 能 引导 读者 开 
中 充分 感受 这 些 方法 带 来 的 效益 。 
客观 的 语言 给 读者 解释 
下 进行 过 严格 测试 。 成 品 的 数据 科学 代码 必须 符合 严格 的 


方面 仍 存在 4 


一 些 在 学 术 界 流行 而 仍 未 广泛 引入 到 
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目前 市 场 上 有 许多 个 人 撰写 的 数据 科学 方面 的 书籍 ， 但 我 认为 它们 在 将 隐藏 在 数据 科 
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民 大 空缺 ， 本 书 志 在 填补 这 
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理 。 我 相信 读 
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主题 ， 但 它们 并 没有 
[ 程 规 范 。 

















本 书 可 以 作为 学 习 数 据 科 学 方法 的 指南 和 快速 参考 书 。 这 是 一 本 独立 的 、 介 绍 数据 科 
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本 书 的 主要 内 容 
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第 1 38, Python 在 数据 科学 中 的 应 月 
数据 科学 编程 莫 定 了 基 而 
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23$, Python $E, jr£ 


和 scikit-learn 等 。 














了 Python 的 科学 编程 和 绘图 


H, MAT Python 内置 的 数据 结构 及 函数 ， 为 




















第 3 章 ， 数 据 分 析 一 一 探索 与 争鸣 ， 履 盖 











分 析 任 务 等 内 容 ， 以 便 有 效 地 构建 数据 科学 算法 。 
Ef, 51A pk? 

















第 4 章 ， 数 据 分 析 
讨论 了 从 简单 方法 到 最 先 i 
5 章 ， 数 据 挖掘 

KE、 核 方法 等 内 容 ， 接 着 对 聚 
第 6 章 ， 机 器 学 习 1， 涵 盖 了 有 
分 类 树 算法 ， 开 始 部 分 就 重 


让 E. 
第 7 章 ， 机 器 学 习 2， 介 绍 了 回 


WA 
的 降 维 技术 。 
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虽 调 了 监督 学 


归 问 题 和 包括 LASSO flle 
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习 的 数据 准 











库 ， 


FF 和 一 些 有 一 点 算法 基础 的 人 的 书 ， 帮 助 他 们 成 为 这 个 行业 的 专家 。 
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包括 NumPy. matplotlib 





E、 转 换 方法 来 探测 性 执行 数据 








居 科 学 中 的 维 数 问 题 ， 详 绢 























海底 捞 针 ， 讨 论 了 无 监督 数据 挖掘 技术 ， 先 精心 探讨 了 基于 距 
与 异常 点 检测 技术 进行 详细 讨论 。 
四 挖掘 技术 ， 包 括 最 近邻 算法 、 朴 素 贝 叶 斯 算 
备 工 作 。 

















分 EG 
后 ， 讨 论 了 运用 交叉 检验 技术 为 这 些 方法 选择 


EE HL. 


回归 在 内 的 正则 化 主题 。 最 








B 8 T, 





展现 了 如 何在 数据 科学 领域 创建 强大 的 、 最 先 ; 








集成 方法 ， 介 绍 了 各 种 集成 方法 ， 
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题 的 通用 性 ， 

















是 在 集成 中 构建 大 量 的 模型 。 
9 生长 树 ， 介 绍 了 更 多 的 基于 树 的 挂 袋 法 ， 基 于 其 对 噪声 的 健壮 性 和 对 不 同 问 





























它们 在 数据 科学 界 非常 流行 。 
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第 10 章 ， 大 规模 机 器 学 习 一 一 在 线 学 习 , 涵盖 了 大 规模 机 器 学 习 及 解决 如 此 大 规模 问 
合适 算法 ， 其 中 的 算法 使 用 数据 流 进行 工作 ， 使 用 的 数据 无 法 完全 加 载 到 内 存 中 。 





的 方法 ， 不 是 对 给 定 的 问题 建立 单一 的 模 








法 、 提 升 法 及 梯度 提升 法 。 本 章 














本 书 所 有 主题 中 的 代码 都 在 一 台 安装 了 64 位 Windows 7 操作 系统 的 计算 机 上 进行 开发 





和 测试 ， 其 本 














LEX Intel i7 CPU 和 8GB 内 存 。 

















本 书 中 使 用 的 开发 语言 和 库 版 本 为 : Python 2.7.5、NumPy 1.8.0、SciPy 0.13.2, Matplotlib 
1.3.1. NLTK 3.0.2 和 scikit-learn 0.15.2. 
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本 书 的 目标 读者 


本 书 适合 于 各 个 层次 的 数据 科学 专业 人 士 ， 包 括 学 生 
章节 的 不 同 主题 契合 了 不 同 读者 的 需求 。 第 1 一 5 章 ， 新 手 














科学 。 专 家 级 读者 可 以 阅读 后 面 的 章节 参考 并 


















































体例 



































这 里 的 代码 通过 适当 的 库 也 能 在 Linux 各 种 发 行 版 和 Macs 上 运行 。 另 外 一 种 方式 是 采 
些 版 本 的 库 创建 一 个 Python 虚拟 环境 ， 这 样 就 能 运行 所 有 主题 中 的 代码 。 











、 业 内 人 士 ， 从 新 手 到 专家 ， 各 





























级 读者 可 以 花 一 些 时 间 认 识 数据 


LE 解 如 何 用 Pyhton 实施 一 些 先进 的 技术 。 本 
书 涉及 适当 的 数学 内 容 以 满足 希望 理解 数据 科学 的 程序 员 ， 给 他 们 一 些 必要 的 参考 。 没 有 
Python 基础 的 人 也 可 以 有 效 地 使 用 本 书 , 本 书 的 第 1 章 介绍 了 基于 Python 编程 语言 的 数据 
科学 。 如 果 你 已 有 编程 基础 ， 这 将 对 你 很 有 帮助 。 本 书 的 编写 框架 基本 自 成 体系 ， 能 给 入 
门 级 读者 讲解 数据 科学 ， 帮 助 他 们 成 为 这 方面 的 专家 。 





















































， 经 常 按 : 准备 工作 、 操 作 方 法 、 

















作 原 理 























、 更 多 内 容 、 参 考 资料 等 主题 





4 Python 数据 科学 指南 























为 了 清楚 提示 如 何 能 够 完成 这 些 主题 ， 我 们 运用 如 下 所 示 的 各 个 部 分 。 
准备 工作 

这 部 分 告诉 你 本 主题 要 讲述 的 内 容 ， 并 介绍 如 何 安装 软件 及 所 需 的 初步 设置。 
操作 方法 

本 部 分 包含 所 需 依照 的 操作 步 又 。 
工作 原理 

这 部 分 通常 是 对 之 前 内 容 的 详细 解释 。 
更 多 内 容 

为 了 使 读者 知道 更 多 相关 主题 的 知识 ， 这 部 分 提供 了 一 些 附 加 信息 。 
参考 资料 


这 部 分 为 主题 提供 了 其 他 有 用 信息 的 配套 链接 。 


约定 















































































































































在 本 书 中 ， 你 会 发 现 一 些 文本 样式 被 用 来 区 别 不 同 种 类 的 信息 ， 以 下 是 一 些 样式 例子 
及 其 各 自 的 含义 。 

文本 中 的 代码 ， 如 函数 名 ， 如 下 所 示 。 

我 们 调用 get iris data O 函数 来 获得 输入 数据 ， 利 用 Scikit-learnd 库 的 
cross validation 模型 的 train test split 函数 将 输入 数据 集 一 分 为 二 。 

代码 块 的 格式 设置 如 下 。 


# Shuffle the dataset 
shuff index = np.random.shuffle (range (len(y))) 









































x train = x[shuff index,:].reshape(x.shape) 
y train = np.ravel(y[shuff index, :]) 














公式 通常 以 图 像 形式 提供 ， 格 式 如 下 。 














X —[xpxsvex,gwherei-lton 


im 


常数 学 部 分 在 每 一 节 的 开头 部 分 被 提出 ， 某 些 章 节 中 ， 各 个 主题 通用 的 数学 知识 统 
ANER 














外 部 链接 的 格式 如 下 。 
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html o 
第 三 方 库 中 一 些 算 法 实现 的 细节 的 说 明 的 规范 如 下 。 

“输入 的 样本 被 预测 的 分 类 被 用 来 当 作 具有 最 高 的 平均 预测 概率 , 如 果 基 准 评估 器 没有 
实施 predict proba 方法 ， 则 诉 诸 于 投票 。” 

任何 引用 科技 期 刊 或 者 论文 作为 参考 文献 的 地 方 ， 格 式 规 范 如 下 。 

你 可 以 阅读 Leo Breiman 的 论文 来 了 解 挂 袋 法 的 更 多 信息 ， 请 参见 : 


Leo Breiman 著 , (Bagging predictors.Mach. Learn) 24, 2 (1996 年 8 月 )， 第 123—140 
页 ，DOI=10.1023/A:1018054314350 http://dx.doi.org/10.1023/A:1018054314350. 


程序 的 输出 及 图 形 通常 以 图 像 形式 提供 ， 例 如 。 









































Single Model Accuracy on Dev data 
precision recall fi1-score support 


0.84 . 51 
54 


avg / total e . . 105 


Bagging Model Accuracy on Dev data 
precision recall fi1-score support 


51 
54 


avg / total . . . 105 








任意 命令 行 的 输入 /输出 格式 如 下 。 


Counter(('Peter': 4, 'of': 4, 'Piper': 4, 'pickled': 4, 'picked': 4,'peppers': 
4, 'peck': 4, 'a': 2, 'A': 1, 'the': 1, 'Wheres': 1, 'If': 1}) 





在 Python shell 中 我 们 希望 读者 能 够 检查 一 些 变量 ， 指 定 的 格式 如 下 所 示 。 
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>>> print b tuple[0] 
T 
>>> print b tuple[-1] 


[$$ 这 个 格子 里 出 现 的 是 警告 或 者 重要 的 注意 点 


M 
| Q 这 个 格子 里 出 现 的 是 提示 和 技巧 


[9 
>>> 
读者 反馈 











我 们 永远 欢迎 来 自 读者 的 反馈 。 让 我 们 知道 你 对 于 这 本 书 的 想法 一 一 哪些 是 你 喜欢 的 
或 者 不 喜欢 的 。 读 者 的 反馈 对 我 们 来 说 十 分 重要 ， 它 可 以 帮助 我 们 拓展 书 的 内 容 ， 将 会 使 

















你 更 加 有 效 地 使 用 本 书 。 






































读者 可 以 用 电子 邮件 发 送 反 馈 内 容 到 邮箱 feedback@packtpub.com, 并 在 邮件 主题 中 提 





及 本 书 的 标题 / 书 名 。 





如 果 你 在 某 个 主题 中 有 专业 经 验 ， 并 有 兴趣 编写 或 参与 

















www.packtpub.com/authors ! 


用 户 支 持 


现在 ， 你 荣幸 地 成 为 了 Packt 出 版 的 图 


中 获得 最 完整 的 服务 。 


示例 代码 下 载 


对 于 你 所 购买 的 任意 Packt 出 版 的 














的 作者 指南 。 

















KIB H H 








上 版， 请 访问 


书 的 拥有 者 ， 我 们 将 尽 我 们 所 能 帮助 你 从 产品 


图 书 ， 你 可 以 在 http:Wwww.packtpub.com 登录 





自己 的 账户 下 载 示例 代码 文件 。 如 果 你 是 在 别处 购买 的 本 书 ， 也 可 以 通过 浏览 
http://www.packtpub.com/support 网 页 并 登记 信息 ， 我 们 将 会 通过 


给 你 。 



































BT TET XC 








发 送 


彩 图 下 载 


我 们 还 为 你 提供 本 书 所 包含 的 彩色 截图 /图 像 的 PDF 文件 , 彩 图 能 帮 你 更 好 地 了 解 输出 
结果 。 你 可 以 从 http//www.packtpub.com/sites/default/files/downloads/1234OT. ColorImages. 
pdf 下 载 此 文件 。 


勘误 表 


虽然 我 们 已 尽力 确保 内 容 的 准确 性 ， 但 是 难免 会 有 错误 发 生 。 如 果 你 在 本 书 中 发 现 
文本 或 者 代码 错误 ， 请 告知 我 们 ， 我 们 将 感激 不 尽 。 这 样 一 来 ， 你 可 以 帮助 其 他 读者 避 
免 困 惑 ， 并 帮助 我 们 改进 本 书 的 后 续 版 本 。 如 果 你 发 现任 何 错误 ， 请 访问 
http://www.packtpub.com/submit-errata 进行 举报 ， 选 择 你 的 书 ， 单 击 勘 误 表 提交 表单 链接 ， 
然后 填写 你 所 发 现 的 错误 详情 。 一 旦 你 的 勘误 通过 验证 ， 你 所 提交 的 内 容 将 被 接受 ， 然 后 
勘误 将 被 上 传 到 我 们 的 网 站 并 添加 到 该 书 的 勘误 列表 中 。 

要 查看 之 前 提交 的 勘误 信息 ， 请 访问 https:/www.packtpub.com/books/content/support， 
在 检索 框 里 输入 书 名 ， 所 需 的 信息 就 会 出 现在 勘误 表 栏目 中 。 


著作 权 保护 
在 互联 网 上 以 不 同 媒介 对 拥有 版 权 的 材料 进行 盗版 是 一 直 存在 的 问题 , Packt 非常 重视 
版 权 和 许可 的 保护 。 如 果 你 遇 到 我 们 的 作品 在 互联 网 上 被 以 任何 形式 进行 非法 拷贝 ， 请 向 


我 们 提供 网 址 或 网 站 名 称 ， 使 我 们 可 以 立即 采取 措施 补救 。 请 将 涉嫌 盗版 材料 的 地 址 链接 
发 送 到 copyright@packtpub.com， 并 与 我 们 联系 。 


我 们 感谢 你 在 保护 作者 方面 提供 的 帮助 ， 让 我 们 能 带 给 你 更 有 价值 的 内 容 。 
联系 我 们 


如 果 你 对 本 书 有 任何 方面 的 问题 ， 可 以 通过 发 送 邮 件 到 questions@packtpub.com 联系 
我 们 ， 我 们 将 竭尽 所 能 来 解决 问题 。 
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Python 在 数据 科学 中 的 应 用 








在 这 一 章 里 ， 我 们 将 探讨 以 下 主题 。 


。 EHR 
写 一 个 列表 
从 男 一 个 列表 创建 列表 一 一 列表 推导 


。 使 
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e 生成 一 个 迭代 器 和 生成 器 




















Jui PO S 
函数 作为 变量 传递 
函数 中 嵌入 函数 























函数 作为 参数 传递 
回 一 个 函数 
装饰 器 改变 函数 行为 
] lambda 创造 匿名 函数 
映射 函数 
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。 使 
。 使 
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过 小 器 

















J zip 和 izip 函数 
p p 


。 从 表格 数据 使 用 数组 


e 对 列 进行 预 处 理 
。 列表 提 
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e Ñ 


。 使 


Python 语言 提供 了 大 量 
E， 我 们 先 讨 论 那 些 最 常 























者 ， 


求 。 


1.2 使 用 字典 对 象 


]。 熟 练 地 掌握 这 些 知识 ， 


本 章 将 对 这 些 便捷 上 





JHA 




















1 itertools 





4 
简介 





ju 











内 置 的 数据 结构 和 函数 ， 十 分 便于 数据 科学 的 程序 处 理 。 
































有 助 于 你 在 处 理 数据 和 





JH ABA o 






































就 能 灵活 地 搭配 并 使 用 它们 ， 同 时 找到 自己 的 方式 来 实现 目标 。 


各 类 数据 结构 都 有 其 
在 本 书 中 ， 我 们 提供 





在 Python 语言 中 ， 









































在 这 











在 后 续 章节 中 ， 你 会 看 到 它们 在 不 同 主题 中 的 应 
于 发 算法 的 繁杂 过 程 中 快速 地 编写 程序 。 
的 数据 结构 和 方法 做 一 个 概述 ， 当 你 成 长 为 一 个 熟练 的 Python 开发 









































容器 是 一 种 对 象 ， 它 能 够 容纳 任意 数量 、 























对 子 对 象 进行 操作 ， 还 可 以 迭代 操作 。 字 典 、 元 组 、 列 表 还 有 集合 者 


collections 模块 














1.2.1 准备 工作 


我 们 先 通过 一 个 Python 的 脚本 示例 来 到 





，Python 提供 了 更 多 的 容器 类 型 。 








也 就 是 每 个 词 在 给 定 的 文本 ， 


1.2.2 ”操作 方法 














下 面 的 示例 演示 了 在 Python ! 



































在 这 一 节 























出 现 的 次 数 。 

















对 字典 对 象 如 何 操作 。 通 过 对 一 句 简 身 


| RIDERA 


解 字典 是 如 何 操作 的 ， 这 段 脚本 











j 途 ， 在 不 同 的 环境 下 ， 可 能 要 使 用 两 类 甚至 更 多 来 适应 你 的 需 
了 大 量 的 实例 以 供 参考 。 


任意 类 型 的 对 象 。 它 可 以 


是 容器 对 象 。 在 
了 解 字 典 。 












































] 来 统计 词 频 ， 

















的 文本 进行 处 理 ， 








12 fi 











我 们 仔细 探究 一 下 真正 的 字典 创建 过 程 。 


+1. 加 载 一 个 句子 到 变量 中 
































用 字典 对 象 3 


sentence = "Peter Piper picked a peck of pickled peppers A peck of 





pickled \ 


peppers Peter Piper picked If Peter Piper picked a peck of pickled \ 
peppers Wheres the peck of pickled peppers Peter Piper picked" 








# 2. 初 始 化 一 个 字典 对 象 
word dict = {} 
8&3. 执行 对 词 频 的 统计 
for word in sentence.split(): 
if word not in word dict: 
word dict[word] =1 
else: 
word dict [word]+=1 
# 4. 打印 输出 词 频 结果 


print word dict 


12.3 工作 原理 
前 面 的 代码 创建 了 一 个 词 频 表 ， 记 录 了 每 个 词 及 其 出 现 的 频率 。 


最 终 的 打印 输出 结果 如 下 。 


('a': 2, 'A': 1, 'Peter': 4, 'of': 4, 'Piper': 4, 'pickled': 
'picked': 4, 'peppers': 4, 'the': 1, 'peck': 4, 'Wheres': 1, 






































4, 
ERU 


1) 


上 面 的 结果 是 一 个 键 值 对 ， 对 于 每 个 词 〈 键 )， 相 对 应 的 是 频率 〈 值 )。 字 典 数据 结构 
是 一 个 哈 希 映射 ， 值 对 应 于 键 。 在 上 例 中 ， 我 们 是 把 字符 串 当 作 键 ， 当 然 ， 我 们 也 可 以 把 





























其 他 不 可 变 的 数据 类 型 当 作 键 。 


























要 看 更 多 关于 Python 中 的 可 变 和 不 可 变 对 象 的 详细 讨论 ， 请 访问 如 下 链接 。 





https://docs.python.org/2/reference/datamodel.html - 


同样 地 ， 值 可 以 是 任意 数据 类 型 ， 包 括 自 定 的 类 。 在 第 2 步 中 ， 我 们 初始 化 了 一 个 字 























m 














及 这 个 新 键 , IHA KeyError 错误 。 在 上 例 中 的 第 3 步 里 , 我 们 可 以 在 for 循环 里 

















添加 一 个 if 语句 来 控制 这 个 情形 ， 我 们 也 可 以 使 用 以 下 语句 。 





word dict.setdefault (word,90) 





对 象 ， 此 时 ， 它 还 是 空 的 。 当 一 个 新 键 被 添加 到 字典 的 时 候 ， 如 果 对 字典 进行 的 操作 涉 


H 
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如 果 我 们 要 在 循环 中 给 一 个 字典 添加 元 素 ， 需 要 对 字典 的 所 有 键 进行 操作 ， 这 个 语句 
会 被 重复 调用 ， 我 们 可 能 并 没有 清楚 地 意识 到 这 一 点 。 
































for word in sentence.split(): 
word dict.setdefault (word, 0) 
word dict[word]--1 


1.2.4 更 多 内 容 


在 Python 2.5 及 以 上 版 本 的 collections 模块 中 ， 有 一 个 defaultqdict 类 。 它 和 
setdefault 方法 有 着 对 应 关系 ，defau1ltdict 类 调用 的 实例 如 下 所 示 。 




















from collections import defaultdict 





sentence = "Peter Piper picked a peck of pickled peppers A peck of\ 
pickled peppers Peter Piper picked If Peter Piper picked a peck of\ 





pickled peppers Wheres the peck of pickled peppers Peter Piper picked" 
word dict - defaultdict (int) 


for word in sentence.split(): 
word dict [word]+=1 


print word dict 


你 可 能 已 经 注意 到 了 ， 我 们 在 代码 中 包含 了 collections.defaultdict, q4J 
Bi TA. 请 注意 defaultdict 的 参数 int， 采 用 了 一 个 函数 作为 参数 。 在 这 个 例 
子 中 ， 我 们 传递 int () 函数 ， 当 字典 遇 到 一 个 之 前 没有 遇 到 的 键 时 ， 它 将 int () 函数 
返回 值 用 来 初始 化 这 个 键 ， 本 例 中 这 个 值 是 0。 在 本 书后 续 部 分 里 ， 我 们 还 会 使 用 到 
defaultdict. 


















































标准 的 字典 不 会 记 住 键 被 添加 进来 的 顺序 ， 在 
collections 模块 中 ，Python 提供 了 一 个 能 记 住 键 被 添加 
的 顺序 的 容器 ， 叫 作 OrqereqDict。 请 阅读 如 下 的 
Python 文档 了 解 更 多 细节 。 
https://docs.python.org/2/library/collections.htmlst 





collections.OrderedDict, 











遍历 字典 是 很 简单 的 ，keys O 函数 可 以 遍历 所 有 的 键 ， values () 函数 可 以 遍历 所 有 
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WE, items () 函数 则 可 以 遍历 所 有 的 键 值 对 ， 请 看 下 面 的 例子 。 


For key, value in word dict.items(): 


print key,value 





在 本 例 中 ，dict .items () 函数 迭代 地 遍历 了 字典 中 的 所 有 键 值 对 。 
如 下 的 Python 文档 非常 详细 地 讲述 了 字典 ， 是 很 方便 的 指南 手册 。 详 见 : 


https://docs.python.org/2/tutorial/datastructures.html#dictionaries。 


字典 是 一 种 非常 有 用 的 媒介 数据 结构 ， 如 果 你 的 程序 使 用 JSON 在 模块 间 传 送信 息 ， 
有 就 是 最 适合 的 数据 类 型 。 从 JSON 文件 中 装载 数据 到 字典 或 者 复制 字典 作为 JSON F 
都 很 方便 。 
Python 提供 了 高 效 的 JSON 操作 库 ， 详 见 : https://docs.python.org/2/library/json.html。 
Counter 是 一 个 字典 子 类 ， 用 来 统计 键 值 对 类 型 的 对 象 , 我 们 的 例子 中 的 词 频 统 计 用 
Counter 来 完成 是 轻而易举 的 。 
请 看 下 面 的 示例 。 


















































































































































np wm 





zx odi 




































































from collections import Counter 


sentence = "Peter Piper picked a peck of pickled peppers A peck of pickled ^ 








peppers Peter Piper picked If Peter Piper picked a peck of\ 
pickled peppers Wheres the peck of pickled peppers Peter Piper \ 








picked" 
words = sentence.split() 
word count - Counter (words) 


print word count['Peter'] 


print word dict 











偷 出 结果 如 下 ， 你 可 以 和 前 面 的 例子 做 一 个 比较 。 




















Counter(('Peter': 4, 'of': 4, 'Piper': 4, 'pickled': 4, 'picked': 4, 
'peppers': 4, 'peck': 4, 'a': 2, 'A': 1, 'the': 1, 'Wheres': 1, 'If':1]) 


访问 以 下 链接 ， 你 能 更 好 地 理解 Counter 类 。 


https://docs.python.org/2/library/collections.html#collections.Counter。 
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1.2.5 参考 资料 


第 1 章 “Python 在 数据 科学 中 的 应 用 ”中 1.3 节 “ 使 用 字典 的 字典 ”的 相关 内 容 。 


1.3 使 用 字典 的 字典 























"d 

















我 们 之 前 提 到 ， 为 了 完成 目标 ， 你 得 创造 性 地 应 用 各 类 数据 结构 ， 这 样 才 能 发 挥 它 们 
的 威力 。 接 下 来 ， 我 们 通过 一 个 实例 来 帮助 理解 “字典 的 字典 ”。 


1.3.1 准备 工作 































































































请 看 表 1-1。 

表 1-1 
用 户 /电影 LORI LOR2 LOR3 SWI SW2 
Alice 4 5 3 5 3 
Huntsman 1 2 1 4 4 

Snipe 3 4 4 2 1 

第 1 列 中 列 出 了 3 个 用 户 ， 其 他 列 都 是 电影 ， 单 元 格 里 是 每 个 用 户 给 电影 的 评分 。 我 



























































们 要 把 这 些 数据 放 到 内 存 中 ， 这 样 大 型 程序 的 其 他 部 分 也 能 方便 地 访问 ， 此 时 我 们 将 使 用 
“字典 的 字典 ”。 


1.3.2 ”操作 方法 


我 们 通过 匿名 函数 来 创建 一 个 user movie rating 的 字典 对 象 ， 以 此 展示 “字典 
的 字典 ”这 一 概念 。 


我 们 先 将 字典 的 字典 填 满 数据 。 



























































from collections import defaultdict 
user movie rating = defaultdict(lambda :defaultdict (int)) 


# 初始 化 艾 丽 丝 的 评分 


user movie rating["Alice"]["LOR1"] = 4 


user movie rating[" 
user movie rating[" 
user movie rating[" 


user movie rating[" 





Alice"]["LOR2"] 
Alice"]["LOR3"] 
Alice"]["SW1"] 
Alice"]["SW2"] 


print user movie rating 


133 ”工作 原理 
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Cn 








ser movie rating 就 是 一 个 字典 的 字典 ， 在 前 一 节 中 ，defaultdict 将 一 个 函 




































































数 作为 参数 ， 在 本 例 中 ， 我 们 传递 了 一 个 内 置 的 匿名 函数 1ambda， 它 返回 一 个 字典 。 每 
当 一 个 新 的 键 被 传递 到 user movie rating 中 ， 同 时 也 有 一 个 新 的 字典 被 创建 。 我 们 
在 后 续 章 节 中 会 经 常 提 及 lambda 函数 。 

通过 这 种 方式 ,我 们 可 以 快速 地 对 每 个 用 户 和 电影 的 组 合体 的 评分 进行 操作 ,同样 地 ， 
还 有 许多 字典 的 字典 的 用 例 充分 说 明 其 便利 性 。 

总 之 ， 熟 练 掌握 字典 数据 结构 ， 能 帮助 你 简化 数据 科学 的 程序 开发 任务 。 以 后 我 们 将 








看 到 ， 在 机 器 学 习 中 ， 字 典 被 大 量 
的 时 候 也 会 大 量 地 使 用 字典 来 存储 特 生 
































上 面 链接 中 “使 用 





























1.34 参考 资料 





字典 映射 词 到 特 各 
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的 应 用 ”: 








1.4 使 用 元 组 





1 





来 存储 特征 值 和 标签 。Python 的 NLTK 库 在 文本 挖掘 
F(E, VJL: http://www.nltk.org/book/ch05.html。 


FE” 这 一 节 展 示 了 如 何 高 效 地 使 用 字 





















































.16 节 “ 使 用 lambda 创建 匿名 函数 ”的 相关 内 容 。 











在 Python 中 ， 元 组 是 一 种 顺序 型 的 容器 对 象 。 元 组 是 不 可 变 的 ， 元 组 中 的 元 素 由 逗号 


分 隔 开 ， 可 以 对 不 同类 别 构成 的 对 象 ; 


in 和 not in. 


比较 、 串 联 、 切 片 和 索引 。 


e min() 和 max()。 
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RATY 








解 字典 的 时 候 ， 






































行 排序 ， 不 允许 插入 操作 ， 支 持 以 下 操作 。 


划 述 了 完整 的 功能 ， 对 于 元 组 ， 我 们 通过 一 些小 段 的 代码 来 聚 
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J 





焦 于 元 组 的 创建 与 维护 操作 。 








1.4.2 ”操作 方法 


先 让 我 们 看 看 一 些 元 组 创建 和 维护 的 示例 代码 。 


# 工 .创建 一 个 元 组 
a tuple = (1,2,'a') 
b tuple -1,2,'c' 














# 2 .利用 索引 访问 元 组 的 元 素 
print b tuple[0] 
print b tuple[-1] 
# 3 .元 组 的 元 素 值 是 无 法 修改 的 ， 如 下 的 语句 将 返回 一 个 错误 
try: 
b tuple[0] = 20 
except: 








print "Cannot change value of tuple by index" 


# 4. 虽 然 元 组 是 不 可 变 的 ， 但 是 元 素 的 元 组 可 以 是 一 个 可 变 的 对 象 
# 在 如 下 的 代码 中 ， 元 组 的 元 组 是 一 个 列表 
c tuple -(1,2,[10,20,30]) 

c tuple[2][0] = 100 











5 .元 组 一 旦 被 创建 ， 无 法 像 列 表 那 样 进行 扩展 
不 过 ， 两 个 元 组 可 以 串联 在 一 起 


print a tuple + b tuple 





# 6. 对 元 组 进行 切片 
a -(1,2,3,4,5,6,7,8,9,10) 


print a[1:] 





print a[1:3] 
print a[1:6:2] 


print a[:-1] 





# 7. 对 元 组 求 min 和 max 值 


print min(a),max(a) 





# 8. 包 含 于 与 非 包含 于 


if 1 in a: 








print "Element 1 is available in tuple a" 
else: 








print "Element 1 is not available in tuple a" 


143 工作 原理 


在 第 1 步 中 ， 我 们 创建 了 一 个 元 组 ， 严 格 来 说 ， 括 号 并 不 是 必需 的 ， 不 过 它 提高 了 代 
码 的 可 读 性 。 我 们 创建 的 是 一 个 多 种 对 象 组 成 的 元 组 ， 有 数值 、 字 符 串 等 类 型 。 第 2 步 演 
示 了 通过 索引 来 访问 元 组 的 细节 ， 索 引 下 标 是 从 零 开 始 。 如 果 下 标 是 负数 ， 则 从 相反 的 广 
向 访问 元 组 的 元 素 ，print 语句 的 输出 结果 如 下 。 












































>>> print b tuple[0] 
1 

>>> print b tuple[-1] 
c 

>>> 











mig 





Python 的 元 组 下 标 从 零 开始 ， 元 组 是 不 可 变 的 。 在 第 3 步 中 ， 我 们 能 看 到 元 组 最 重要 
的 属性 :不 可 变 。 我 们 无 法 改变 一 个 元 组 的 元 素 的 值 ， 示 例 代码 的 第 3 步 会 导致 编译 器 扫 


一 个 错误 。 












































Er 


Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 


TypeError: 'tuple' object does not support item assignment 


























这 显得 有 点 过 于 严格 ， 然 而 这 种 特性 从 数据 科学 的 观点 来 说 有 着 重要 的 意义 。 

















开发 机 器 学 习 程序 时 ,特别 是 从 原始 数据 中 生成 特征 值 
Q 的 时 候 , 请 创建 特征 值 元 组 , 这样 数值 就 不 会 被 下 游 的 
代码 改变 。 
这 些 特 征 值 保存 在 元 组 里 ， 下 游 的 代码 就 无 法 意外 地 修改 特征 值 。 
不 过 ， 我 们 需要 指出 ， 元 组 可 以 采用 可 变 的 对 象 作为 它 的 成 员 ， 例 如 列表 对 象 。 像 第 
4 步 中 演示 的 元 组 ， 它 的 第 3 个 元 素 就 是 一 个 列表 对 象 ， 我 们 可 以 试 试 修改 列表 中 的 元 素 。 





























c_tuple[2] [0] = 100 





通过 以 下 语句 来 打印 输出 元 组 。 


print c tuple 
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我 们 会 得 到 如 下 的 输出 结果 。 





(15 2, 100, 20, 30]) 





你 能 看 到 ， 列 表 的 第 1 个 元 素 的 值 已 经 被 修改 为 100。 


ER 5 步 中 ， 我 们 将 两 个 元 组 串联 起 来 ， 在 机 器 学 习 程序 开发 中 ， 常 常 有 不 同 模块 生 
成 不 同 的 特征 值 ， 此 时 使 用 元 组 串联 是 一 个 很 好 的 选择 。 


例如 : 你 有 一 个 模块 用 于 创建 词 袋 模型 的 特征 值 ， 而 另 
M 一 个 模块 为 了 典型 的 文本 分 类 而 创建 数值 特征 ， 这 些 模 
Q 块 都 可 以 将 输出 结果 保存 到 元 组 中 ， 这 样 最 终 的 模块 可 
以 连接 所 有 的 元 组 生成 完整 的 特征 值 向 量 。 


由 于 不 可 变 的 特性 ， 元 组 不 像 列 表 那 样 可 以 在 创建 之 后 进行 扩展 ， 它 不 支持 append 
函数 。 元 组 的 不 可 变 特 性 的 另 一 个 好 处 是 它 可 以 作为 字典 的 键 。 


一 般 来 说 ， 当 创建 字典 的 键 时 , 我 们 需要 使 用 自 定义 的 
E 分 隔 符 来 连接 不 同 的 字符 串 ， 以 此 创建 一 个 唯一 的 键 。 
Q 如 果 你 使 用 元 组 ,元 组 里 的 各 个 字符 串 可 以 对 应 作为 字 
典 的 键 。 
这 样 可 以 大 大 提高 程序 输出 结果 的 可 读 性 ， 另 外 还 能 避免 键 在 手动 组 合 的 时 候 产 生 难 
以 觉察 的 错误 。 
在 第 6 步 中 ， 我 们 讲述 了 元 组 的 切片 操作 ， 一 般 地 ， 切 片 参数 需要 3 个 冒号 分 隔 的 数 
字 参 数 ， 第 1 个 数 是 切片 开始 的 位 置 ， 第 2 个 是 结束 的 位 置 ， 最 后 一 个 是 步 长 。 第 6 步 的 
示例 中 也 可 以 这 样 表示 。 

































































































































































print a[1:] 





打印 输出 的 结果 如 下 。 














在 这 个 示例 中 ， 我 们 只 给 出 了 开始 位 置 ( 记 住 : 索引 起 始 于 零 )， 我 们 得 到 的 是 元 组 从 
索引 值 1 开始 的 切片 。 再 看 另 一 个 示例 。 






































print a[1:3] 
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打印 输出 的 结果 如 下 。 


(2, 3) 











这 样 ， 我 们 指定 了 起 始 位 置 为 1， 结束 位 置 为 3。 





切片 操作 是 右 侧 结束 。 ] 














虽然 我 们 指定 了 结束 位 置 为 3， 但 输出 的 结果 返回 的 值 实际 只 到 位 置 2， 提 前 了 一 位 。 
我 们 得 到 的 是 第 2 和 第 3 位 的 部 分 。 最 后 ， 我 们 来 看 看 提供 全 部 3 个 参数 : 起 始 位 置 、 结 
束 位 置 和 步 长 。 






















































































print a[1:6:2] 


打印 输出 的 结果 如 下 。 


(2, 4,6) 




















除了 起 始 和 结束 位 置 ， 我 们 设置 了 步 长 为 2， 上 面 的 输出 结果 显示 了 每 次 输出 都 跳 两 
个 位 置 。 


我 们 再 来 看 看 位 置 索引 值 为 负数 的 情形 。 













































































print a[:-1] 








除了 最 后 一 个 元 素 ， 全 部 的 元 素 都 被 打印 显示 了 。 


print a[::-1] 


打印 输出 的 结果 如 下 。 





























更 深入 地 思考 一 下 ， 上 面 这 个 语句 的 输出 结果 如 下 所 示 一 一 拥有 好 奇 心 的 读者 应 该 能 
探索 出 为 何 得 到 这 样 的 结果 。 
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测 某 个 元 素 是 否 存 在 于 元 组 中 。 
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在 第 7 步 中 ， 我 们 通过 min () 和 max () 函数 来 获取 元 组 中 的 最 小 和 最 大 值 。 























>>> print min(a), max(a) 
1 10 
>>> 























在 第 8 步 中 ， 我 们 展示 了 包含 于 、 非 包含 于 两 种 条 件 操作 ， 这 两 种 操作 常常 被 用 来 检 


























if 1 in a: 
print "Element 1 is available in tuple a" 
else: 





print "Element 1 is available in tuple a" 


1.44 更 多 内 容 


























前 一 小 节 中 ， 我 们 通过 索引 访问 元 组 的 元 素 。 为 了 提高 程序 的 可 读 性 ， 我 们 会 给 元 组 

















的 每 个 元 素 取 一 个 名 字 ， 并 通过 名 字 来 访问 这 些 元 素 ， 这 就 是 命名 元 组 的 来 由 ， 下 面 的 URL 





























提供 了 很 好 的 命名 元 组 文档 。 


https://docs.python.org/2/library/collections.html#collections.namedtuple 。 
我 们 来 看 一 个 简单 的 命名 元 组 应 用 示例 。 








from collections import namedtuple 








vector = namedtuple ("Dimension",'x y 2z') 

vec 1 = vector(1,1,1) 

vec 2 = vector(1,0,1) 

manhattan distance = abs(vec l.x - vec 2.x) + abs(vec l.y - vec 2.y) ^ 
t abs(vec lz - vec 2.z) 

print "Manhattan distance between vectors - $d"$(manhattan distance) 

















你 可 能 已 经 注意 到 ， 我 们 采用 了 vec 1.x 和 vec 1.y 等 对 象 符号 来 访问 vec 1 和 























vec 2 的 元 素 。 相 较 于 使 用 元 组 的 索引 ， 这 样 的 代码 可 读 性 更 好 。 vec 1.x 和 vec 1[0] 


是 等 价 的 。 


1.4.5 参考 资料 











第 3 章 “数据 分 析 一 一 探索 与 争鸣 ”中 3.16 节 “ 词 袋 模型 表示 文本 ”的 相关 内 容 。 








1.5 使 用 集合 


除了 不 能 存在 


重复 值 ， 集 合 和 列表 十 分 相似 。 和 外 

















况 下 ， 集 合 被 用 


删除 列表 中 的 

















些 操 作 在 许多 用 












































无 序 的 同类 元 素 的 全 
、 并 集 、 差 集 和 对 称 差 气 

















REM. f 











都 十 分 便于 使 用 。 


1.5.1 准备 工作 














在 这 节 ! 














， 我 们 会 写 一 小 段 代码 来 帮助 理 
里 ,我 们 将 使 用 Jaccard 系数 来 计算 两 句 话 的 相 

















在 后 续 的 章节 里 ,我们 还 会 介 























元 素数 量 。 














A: 它 是 介 于 0 到 1 的 数值 ，1 表示 高 相似 度 ， 它 的 计生 


1.5.2 ”操作 方法 






































坚 集 合 数据 结构 的 不 同 用 途 。 帮 
似 度 ， 并 对 Jaccard 系数 
相似 的 其 他 度量 方法 。 先 给 Jaccard 系数 来 一 个 从 
方法 基于 两 个 集合 中 存在 的 共同 































































































让 我 们 来 看 看 创建 和 维护 集合 的 Python 代码 。 
1 .初始 化 两 个 句子 


st 1 = "dogs chase cats" 





十 


st 2 = "dogs hate cats" 


# 2. 从 字符 串 中 创建 词 的 集合 
st 1 wrds = set(st l.split()) 
st 2 wrds = set(st 2.split()) 








# 3. 找 出 每 个 集合 中 不 重复 的 词 总 数 ， 即 词 表 大 小 
no wrds st 1 = len(st 1 wrds) 
no wrds st 2 = len(st 2 wrds) 


























# 4. 找 出 两 个 集合 中 共有 的 词 ， 保 存 到 列表 中 ， 并 统计 总 数 


cmn wrds = st 1 wrds.intersection(st 2 wrds) 





no cmn wrds = len(st 1 wrds.intersection(st 2 wrds)) 





# 5. 找 出 两 个 集合 并 集中 不 重复 的 词 ， 保 存 到 列表 中 ， 并 统计 总 数 


unq wrds = st 1 wrds.union(st 2 wrds) 








no unq wrds = len(st 1 wrds.union(st 2 wrds)) 
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# 6. 计 算 Jaccara 相似 度 








similarity = no cmn wrds / (1.0 * no unq wrds) 
# 7. 打 印 输出 

print "No words in sent 1 = $d"$(no wrds st 1) 
print "Sentence 1 words =", st 1 wrds 

print "No words in sent 2 = $d"$(no wrds st 2) 
print "Sentence 2 words -", st 2 wrds 

print "No words in common = $d"$£(no cmn wrds) 
print "Common words -", cmn wrds 

print "Total unique words = $d"$£(no unq wrds) 
print "Unique words-",unq wrds 

print "Similarity = No words in common/No unique words, $d/$d \ 





-$.2f"$(no cmn wrds,no unq wrds,similarity) 


15.3 ”工作 原理 


在 第 1 步 和 第 2 步 中 , 我 们 将 两 句 话 切 分 成 多 个 词 , 并 用 sec () 函数 创建 了 两 个 集合 ， 
set () 函数 可 A NIU Oe 



























































>>> a =(1,2,1) 
>>> set (a) 
set([1, 2]) 
>>> b -[1,2,1] 
>>> set (b) 
set([1, 2]) 























在 这 个 示例 中 ，a 是 一 个 元 组 ，b 是 一 个 列表 ， 通 过 set () 函数 ， 重 复 的 元 素 被 丢弃 ， 
并 返回 一 个 集合 对 象 。st 1.split() 和 Mund en et 我 们 将 它 
传递 给 set 函数 来 获取 集合 对 象 。 

现在 我 们 用 Jaccard 系数 计算 两 个 句子 之 间 的 相似 度 ， 并 对 Jaccard 系数 进行 详细 的 讲 
述 ， 在 后 续 的 章节 里 ， 我 们 还 会 在 “相似 度 计算 ”部 分 介绍 其 他 的 度量 方法 。 我 们 使 用 
union () Ñl intersection () 函数 对 集合 进行 操作 来 计算 相似 度 。 


我 们 在 第 4 步 执行 了 两 个 操作 ， 个 是 intersection () 函数 ， 由 此 我 们 找 出 了 两 
个 集合 中 的 共有 的 词 分 别 是 “cats” 和 DUE 共有 的 词 数量 为 2。 接 下 来 , 我 们 用 union() 
将 两 个 集合 进行 并 集 ， 然 后 将 不 重复 的 那些 词 列 出 来 ， 分 别 是 :“cats”“hate”“dogs” 和 
chase”。 这 在 自然 语言 处 理 中 被 称 为 词 表 。 最 后 ， 我 们 在 第 6 步 中 计算 Jaccard 系数 ， 即 
两 个 集合 共有 的 词 数量 与 两 个 集合 并 集中 不 重复 的 词 总 数 的 比值 。 
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输出 的 结果 如 下 。 


No words in sent 1 = 3 

Sentence 1 words = set(['cats', 'dogs', 'chase']) 
No words in sent 2 = 3 

Sentence 2 words = set(['cats', 'hate', 'dogs']) 
No words in common = 2 

Common words = set(['cats', 'dogs']) 

Total unique words - 4 





Unique words- set(['cats', 'hate', 'dogs', 'chase']) 


Similarity = No words in common/No unique words, 2/4 = 0.50 


1.5.4 更 多 内 容 


我 们 在 上 面 的 实例 中 演示 了 集合 的 函数 的 用 法 。 此 外 ， 你 也 可 以 从 scikit-learn 
之 类 的 库 中 使 用 内 置 函 数 。 我 们 将 尽 可 能 多 地 使 用 这 些 函 数 ， 而 不 必 自 己 亲 自 写 那些 集合 
的 应 用 函数 。 
加 载 库 


from sklearn.metrics import jaccard similarity score 































































































1 .初始 化 两 个 句子 
st 1 = "dogs chase cats" 
st 2 = "dogs hate cats" 





# 2. 从 字符 串 中 创建 词 的 集合 
st 1 wrds = set(st l.split()) 
st 2 wrds set(st 2.split()) 


unq wrds = st 1 wrds.union(st 2 wrds) 


a =[ 1 if w in st 1 wrds else 0 for w in unq wrds ] 
b =[ 1 if w in st 2 wrds else 0 for w in unq wrds] 


print a 
print b 


print jaccard similarity score(a,b) 





输出 的 结果 如 下 。 
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[1, 1, 1, 0] 
0.5 


1.6 写 一 个 列表 























列表 是 一 种 顺序 型 的 容器 对 象 ， 它 和 元 组 很 相似 ， 不 过 ， 它 们 是 同 构 且 是 可 变 的 。 列 
表 支 持 追 加 操作 ， 它 可 以 被 用 来 当 作 栈 或 者 队列 。 与 元 组 不 同 ， 它 可 以 扩展 ， 你 可 以 在 创 
建 一 个 列表 之 后 使 用 append 函数 给 它 追 加 一 个 元 素 。 


1.6.1 准备 工作 


和 介绍 元 组 的 小 节 相似 ， 我 们 通过 一 些小 段 的 代码 来 聚焦 于 列表 的 创建 与 维护 操作 ， 
而 不 是 像 介绍 字典 那样 采用 完整 的 功能 代码 。 
1.6.2 ”操作 方法 


下 面 的 Python 代码 演示 列表 的 创建 和 维护 等 操作 。 


# 工 .快速 地 创建 一 个 列表 
a = range(1,10) 




















































































































print a 
b 一 [at p" Neu] 


print b 





2 .列表 可 以 通过 索引 来 访问 ， 索 引起 始 于 0 


print a[0] 


e 








3 .用 负数 作为 索引 ， 则 对 列表 元 素 的 访问 从 反方 向 开始 
a[-1 











4 .使 用 两 个 索引 参数 ， 切 片 操作 可 以 访问 列表 的 子 集 
print a[1:3] # prints [2, 3] 

print a[1:] 4 prints [2, 3, 4, 5, 6, 7, 8, 9] 
print a[-1:] # prints [9] 

print a[:-1] 4 prints [1, 2, 3, 4, 5, 6, 7, 8] 








# 5. 列 表 串联 
a = [1,2] 
b = [3,4] 





Iz 


print a + b prints [1, 2, 3, 4] 





# 6. 列 表 的 最 小 值 和 最 大 值 


print min(a),max(a) 


# 7. 包 含 于 和 非 包含 于 
ob i e 

print "Element 1 is available in list a" 
else: 





print "Element 1 is available in tuple a" 





iu 


zi 


# 8. 和 追加 和 扩展 列 寻 
a = range(1,10) 
print a 
a.append (10) 
print a 





# 9. 列 表 实 现 栈 


a stack = [] 


a stack.append (1) 
a stack.append (2) 
a stack.append(3) 


print a stack.pop() 
print a stack.pop() 
print a stack.pop() 


+ 10 .列表 实现 队列 


a queue = [] 


a queue.append (1) 
a queue.append (2) 
a queue.append (3) 


print a queue.pop(0) 
print a queue.pop(0) 
print a queue.pop(0) 


+ 11 .列表 排序 和 反 转 

from random import shuffle 
a = range(1,20) 

shuffle (a) 


print a 
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a.sort() 


print a 


a.reverse() 


print a 


1.6.3 工作 原理 


第 1 步 中 , 我 们 能 看 到 创建 列表 的 方式 与 其 他 的 不 同 , 请 注意 我 们 只 有 同类 型 的 元 素 。 
和 和 集合 不 一 样 , 列表 允许 存在 重复 的 元 素 。 第 2 步 到 第 7 步 和 元 组 的 相关 步骤 都 是 一 样 的 ， 
履 盖 了 索引 、 切 片 、 串 联 、 最 小 最 大 值 、 包 含 于 和 非 包 含 于 等 操作 ， 我 们 不 再 费 述 。 


第 8 步 演示 了 追加 和 扩展 操作 ， 这 也 是 列表 区 别 于 元 组 的 地 方 〈 当 然 ， 请 注意 列表 元 
素 必 须 是 同类 型 )。 我 们 来 看 看 代码 第 1 部 分 的 输出 。 

























































































>>> a = range(1,10) 


>>> print a 


[Tg 724 By dy Dp oor L8, 91 

>>> a.append(10) 

>>> print a 

EL 35 4, By Oy Tp 8S5 9, 001 
>>> 





我 们 看 到 10 被 添加 到 列表 a 中 。 
下 面 的 输出 是 第 2 部 分 中 扩展 函数 的 演示 。 





>>> b-range(11,15) 

>>> a.extend (b) 

>>> print a 

[15 2; 3$ 4, 5, 69 T7, 8, 9, l0, ll, 12, 13, 14] 
>>> 








我 们 用 另 一 个 列表 b 扩展 了 原来 的 列表 。 


在 第 9 步 中 ， 我 们 演示 了 用 列表 实现 栈 的 功能 ，pop O 函数 用 来 取 回 追加 到 列表 中 的 
最 后 一 个 元 素 ， 输 出 结果 如 下 。 























3 
2 
1 
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最 后 一 个 被 追加 进来 的 元 素 被 第 一 个 取 回 ， 这 就 是 栈 的 后 进 先 出 (Last In First Out, 
LIFO). 

在 第 10 步 ， 我 们 用 列表 来 实现 队列 ，pop () 函数 用 0 作为 参数 ， 表 明 要 取出 的 元 素 的 
索引 已 经 被 传递 了 ， 输 出 结果 如 下 。 
















































































输出 结果 遵循 的 是 队列 的 FIFO 类 型 ， 但 这 是 一 种 低 效 的 方法 。 由 于 列表 底层 实现 的 
方法 限制 ， 弹 出 最 初 的 元 素 不 是 一 个 好 的 选择 。 如 果 想 要 执行 这 个 操作 ， 一 个 更 有 效 的 方 
法 是 使 用 双 端 队列 数据 结构 ， 我 们 将 在 下 一 章节 中 介绍 。 


最 后 一 个 步骤 展示 了 列表 的 sort 和 reverse 操作 。 IRAIN AKRA sort () 可 以 将 
列表 的 元 素 进 行 排序 ， 默 认 是 升序 排序 。 本 章 后 面 有 个 专门 的 小 节 讲 解 排 序 。reverse () 
函数 将 列表 中 的 元 素 进行 反 转 。 


我 们 先 来 创建 一 个 列表 ， 元 素 是 从 1 到 19。 












































































































































a = range(1,20) 


























random 模块 中 有 一 个 shuffle () 函数 , 我 们 先 用 它 将 列表 中 的 元 素 搅 乱 , 然后 我 们 
才能 演示 排序 操作 ， 搅 乱 后 的 输出 结果 如 下 。 


























Loy l4, ll, I2,.4, 13, I7; Sr 2,3, 1; 16, 8, l5; 18, 6; 7, 9; 10] 








ME, a.sort O 执行 了 一 个 位 置 排序 ， 我 们 得 到 如 下 的 输出 结果 。 


























reverse() 也 是 一 个 位 置 操作 ， 产 生 如 下 输出 结 
I5 4859 Te 520049 4395 30: iir To- os Bote 38e uii 85973 


1.6.4 更 多 内 容 


栈 或 队列 只 能 在 一 个 方向 上 追加 或 弹出 数据 ， 而 双 端 队列 有 两 个 端 ， 可 以 在 不 同 的 端 
执行 追加 或 弹出 数据 操作 ， 请 参见 : 


https://docs.python.org/2/library/collections.html#collections.deque - 
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1.7 ”从 另 一 个 列表 创建 列表 一 一 列表 推导 














推导 是 从 一 个 序列 创建 另 一 个 序列 的 操作 ， 例 如 ， 我 们 可 以 从 列表 或 元 组 中 创建 一 个 
列表 。 本 节 我 们 将 讲述 列表 推导 。 一 般 地 ， 列 表 推 导 具 有 以 下 特点 。 

e. 序列 ， 表 示 一 个 我 们 对 其 元 素 感 兴趣 的 列表 。 

e. 序列 的 元 素 拥 有 可 变 的 表示 方法 。 

。 使 用 输入 序列 的 元 素来 产生 输出 表达 式 ， 以 此 产生 输出 序列 。 

。 一 个 可 选 的 谓词 表达 式 。 
1.71 准备 工作 

我 们 先 通过 一 个 Python 的 脚本 示例 来 理解 列表 推导 中 涉及 的 元 素 的 不 同 之 处 。 先 输入 
一 个 列表 ， 元 素 包含 了 一 些 正 数 和 负数 ， 我 们 希望 得 到 的 输出 是 由 那些 负数 元 素 的 平方 值 
构成 的 列表 。 


1.7.2 ”操作 方法 
下 面 的 示例 代码 演示 了 列表 推导 操作 。 


1 .定义 一 个 由 一 些 正 整数 和 负 整 数 构成 的 简单 列表 
a = [1,2,-1,-2,3,4,-3,-4] 




















































































































































































































1 














2 .现在 让 我 们 写 出 列表 推导 
pow () 是 宕 函数 ， 需 要 两 个 输入 参数 ， 第 1 个 参数 是 底数 ， 第 2 个 参数 是 指数 ， 返 回 的 输出 为 赫 值 


b = [pow(x,2) for x in a if x < 0] 




















3 .最 后 我 们 看 看 保存 在 新 建 的 列表 b 里 的 输出 结果 


print b 


1.7.3 ”工作 原理 


这 个 示例 解释 了 列表 推导 的 不 同 组 成 部 分 。 我 们 来 看 第 2 步 。 


















































b = [pow(x,2) for x in a if x < 0] 
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这 行 代码 可 做 如 下 解释 。 
。 输入 是 列表 a， 输出 为 列表 b. 

。 我 们 用 变量 x 来 表示 列表 中 的 每 个 元 素 。 

e pow (xy 2) 是 输出 表达 式 ， 使 用 输入 列表 中 的 元 素来 计算 产生 输出 列表 。 


。 最 后 ,“if x < 0” 是 一 个 谓词 表达 式 ， 它 负责 选择 输入 列表 中 的 哪些 元 素来 计 
算 产 生 输 出 列表 。 


1.4 更 多 内 容 


对 字典 来 说 ， 推 导 的 语法 也 是 相同 的 ， 我 们 来 看 一 个 简单 的 示例 。 



















































































a e ('a':l,'b':2,'e':3) 
b = (x:pow(y,2) for x,y in a.items()) 
print b 

















在 上 面 的 示例 中 ， 我 们 从 输入 的 字典 a 中 创建 了 一 个 新 的 字典 bp， 输 出 结果 如 下 。 








prate cl, tere o Shas 




















我 们 保留 了 字典 的 键 ， 但 其 新 值 是 字典 a 中 原来 的 值 的 平方 。 值 得 注意 的 一 点 是 在 扒 
导 过 程 中 ， 花 括号 代 蔡 了 括号 。 


我 们 也 可 以 采用 一 点 小 技巧 来 给 元 组 做 推导 ， 请 看 下 面 的 示例 。 






































def process(x): 
if isinstance(x,str): 
return x.lower() 
elif isinstance(x,int): 
return x*x 
else: 


return -9 


& m (i 2y-l1,-2,"'D',9;4,23, XA') 
b = tuple(process(x) for x in a ) 


print b 














我 们 编写 了 一 个 新 的 处 理 函 数 来 其 代 pow () 函数 ， 我 把 它 留 给 读者 作为 一 个 练习 ， 以 
里 解 这 个 处 理 函 数 的 作用 。 请 注意 我 们 遵循 和 推导 列表 一 样 的 语法 。 不 过 ， 我 们 使 用 圆 括 
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号 代替 括号 ， 这 段 代码 的 输出 会 返回 如 下 错误 信息 。 


QI 








Xgenerator object «genexpr» at 0x05E87D00» 








哎 ， 我 们 想 要 一 个 元 组 ， 但 是 被 一 个 迭代 器 终结 了 后面 的 章节 我 们 会 介绍 迭代 器 )， 
正确 的 方式 应 该 是 下 面 这 样 的 。 












































b = tuple(process(x) for x in a ) 


X$, “print b” 语 句 将 产生 如 下 输出 。 


(Lid Ser dp Sp 9 Oy Dy Wa) 














Python 的 推导 是 基于 集 办 代 器 符号 的 ， 请 参见 : 

















http://en.wikipedia.org/wiki/Set-builder notation. 





XT Itertools.dropwhile, i2 Jl. 
https://docs.python.org/2/library/tertools.htmlsfitertools.dropwhile 。 
借助 谓词 和 序列 ，qropwhile 将 只 返回 满足 那些 谓词 表达 式 的 序列 中 的 项 。 


1.8 使 用 迭代 器 


























— 
Zy 
































毫 无 疑问 ， 对 于 数据 科学 的 程序 而 言 ， 数 据 是 极其 重要 的 输入 。 数 据 的 大 小 是 可 变 的 ， 
有 些 能 装载 到 内 存 中 ， 有 些 则 不 能 。 而 记录 访问 架构 也 是 随 一 种 数据 格式 到 另 一 种 而 变化 。 
有 趣 的 是 ， 不 同 的 算法 处 理 数据 时 ， 需 要 的 是 可 变 长 度 的 组 块 。 例 如 ， 假 如 你 在 写 一 个 随 
机 梯度 下 降 的 算法 , 你 希望 在 每 个 时 间 片 传送 5000 条 记录 的 数据 块 ， 如 果 你 对 如 何 访问 数 
据 、 理 解数 据 格式 、 依 次 传送 数据 、 给 调用 者 需要 的 数据 等 流程 有 着 清晰 的 概念 ， 那 你 才 
能 成 功 。 这 样 能 让 你 写 出 清晰 的 代码 。 大 多 数 时 候 ， 最 有 趣 的 部 分 是 我 们 如 何 处 理 数 据 ， 
而 不 是 我 们 怎么 访问 这 些 数据 。Python 给 我 们 提供 了 和 迭代 器 这 种 优雅 的 方式 来 处 理 所 有 这 


些 需求 。 
1.8.1 ”准备 工作 


Python 中 的 迭代 器 实现 了 一 种 迭代 器 模 式 , 它 让 我 们 可 以 一 个 接 一 个 地 人 处理 一 个 序列 ， 
但 不 需要 真正 实现 整个 序列 。 
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1.8.2 ”操作 方法 


我 们 来 创建 一 个 简单 的 迭代 器 ， 叫 作 “ 简 单 计 数 器 ”， 用 一 些 代码 演示 了 怎样 高 效 地 使 
JR. 
# 工 . 写 一 个 简单 的 迭代 器 


class SimpleCounter (object): 
def | init (self, start, end): 





















































self.current = start 
self.end = end 
def | iter (self): 
'Returns itself as an iterator object' 
return self 
def next (self) 
'Returns the next value till current is lower than end' 
if self.current » self.end: 
raise StopIteration 
else: 
self.current += 1 
return self.current - 1 
# 2 .现在 来 访问 这 个 迭代 器 
c = SimpleCounter(1,3) 


print c.next() 





print c () 
print c.next() 
print c () 
# 3. 另 外 一 种 访问 方式 

for entry in iter(c): 


print entry 


183 ”工作 原理 


在 第 1 步 中 ， 我 们 定义 了 一 个 名 为 SimpleCounter 的 类 ， 构 造 函 数 init 有 两 个 
参数 : 起 始 和 结束 ， 来 定义 序列 的 开始 和 结束 。 请 注意 iter 和 next 这 两 个 方法 ， 在 
Python 中 想 要 成 为 一 个 选 代 咒 的 对 象 必 肥 页 都 支持 这 两 个 函数 。 iter 返回 整个 类 对 象 作 
为 一 个 迭代 器 对 象 ，next 方法 返回 迭代 器 里 的 下 一 个 值 。 


如 第 2 步 所 示 ， 我 们 可 以 使 用 next O 函数 访问 迭代 器 中 的 连续 元 素 。Python 也 提供 
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了 一 个 方便 的 函数 iter () ， 它 能 用 来 在 循环 体 中 循序 访问 元 素 ， 如 第 3 步 所 示 。 它 在 内 
部 实现 中 使 用 了 next 函数 。 
请 注意 ， 一 个 迭代 器 对 象 只 能 被 使 用 一 次 。 运 行 上 面 的 代码 之 后 ， 如 果 我 们 仍 要 像 下 
面 这 样 访问 迭代 器 。 
























































print next(c) 








系统 会 抛 出 一 个 StopIteration 异常 。 在 序列 已 经 到 尾部 的 时 候 再 调用 c.next () 


会 触发 一 个 StopIteration 异常 。 














raise StopIteration 
StopIteration 
>>> 





iter () 函数 会 处 理 这 个 异常 ， 当 数据 访问 完成 的 时 候 退 出 循环 。 
1.8.4 更 多 内 容 


再 看 另 一 个 迭代 器 的 示例 ， 我 们 需要 在 程序 中 访问 一 个 非常 大 的 文件 ， 不 过 ， 在 代码 
， 我 们 每 次 只 访问 一 行 ， 直 到 读 完 整个 文件 。 


















































Lim 
n 





f = open(some file of interest) 





for l in iter(f): 
print 1 
f.close() 





在 Python 里 , 一 个 文件 对 象 就 是 一 个 迭代 器 ， 它 支持 iter 0 和 next () 函数 。 因 此 ， 
我 们 每 次 只 处 理 一 行 数据 ， 而 不 是 将 全 部 文件 加 载 到 内 存 中 。 


迭代 器 给 了 你 自由 ， 你 可 以 让 你 的 应 用 程序 自己 定义 访问 你 的 数据 源 的 方式 。 


下 面 的 链接 提供 了 Python 中 多 种 多 样 的 迭代 器 使 用 方法 的 信息 ， 如 无 限 迭 代 器 
itertools 中 的 count () cycle () 以 及 repeat () 等 。 
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https://docs.python.org/2/library/itertools.htmlsfitertools.cycle. 
1.9 ”生成 一 个 迭代 器 和 生成 器 


上 一 节 ， 我 们 了 解 了 什么 是 迭代 器 ， 这 一 节 我 们 来 讨论 如 何 生 成 一 个 迭代 器 。 
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1.9.1 准备 工作 


生成 器 提供 了 清晰 的 语法 ， 能 够 依次 访问 一 个 序列 ， 并 不 需要 使 用 iter 和 next() 
这 两 个 函数 。 我 们 也 不 用 写 一 个 类 了 。 请 注意 ， 生 成 器 和 可 和 迭代 这 两 者 才能 制造 一 个 迭 
代 器 。 


1.9.2 ”操作 方法 


如 果 你 理解 了 前 面 小 节 里 的 推 性 ， 我 们 下 面 的 示例 你 也 能 明白 ， 在 这 个 示例 中 ， 我 们 
有 一 个 生成 器 推导 。 回 忆 一 下 ， 我 们 曾经 用 下 面 的 方式 来 进行 一 个 元 组 推导 ， 并 得 到 了 一 
个 生成 器 对 象 。 






























































































































































SimpleCounter = (x**2 for x in range(1,10)) 
tot = 0 
for val in SimpleCounter: 
tott-val 
print tot 


1.9.3 ”工作 原理 


很 明显 ， 上 面 的 代码 片段 将 算出 给 定 范围 的 数 的 平方 和 ， 本 例 中 的 范围 是 从 1 到 9 
(Python 的 range 函数 是 右 侧 结 束 ),， 使 用 生成 器 , 我 们 创建 了 一 个 名 为 SimpleCounter 
的 迭代 器 ， 我 们 用 它 在 for 循环 中 循序 访问 那些 潜在 的 数据 。 请 注意 我 们 现在 没有 使 用 
iter() 函数 ， 代 码 十 分 清晰 ， 我 们 成 功 地 用 一 种 优雅 的 方式 重建 了 我 们 的 旧 


SimpleCounter 类 。 


1.9.4 更 多 内 容 
让 我 们 看 看 如 何 使 用 yield 语句 来 创建 一 个 生成 器 。 



























































































































































def my gen(low,high): 
for x in range(low,high): 
yield x**2 


tot = 0 
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for val in my gen(1,10): 
tott-val 
print tot 




















在 上 面 的 代码 中 ,my_gen O 函数 就 是 一 个 生成 器 ， 我 们 使 用 yield 语句 来 返回 一 个 
序列 输出 。 
在 前 面 的 小 节 中 ， 我 们 提 到 过 生成 器 和 可 迭代 两 者 才能 制造 一 个 迭代 器 ， 下 面 我 们 通 
过 使 用 iter 函数 调用 生成 器 来 验证 一 下 。 







































































gen = (x**2 for x in range(1,10)) 


for val in iter(gen): 


print val 


















































在 我 们 进入 下 一 节 “ 使 用 可 和 迭代 对 象 ”之 前 ， 强 调 一 下 使 用 生成 器 的 注意 事项 ， 当 我 
们 完成 对 序列 的 访问 时 ， 就 该 立刻 结束 ， 不 要 再 试图 获取 更 多 的 数据 。 














| ] 


1.10 使 用 可 迭代 对 象 





可 迭代 对 象 和 生成 费 十 分 相似 ， 但 是 有 一 个 重要 的 区 别 : 我 们 可 以 重复 地 访问 一 个 可 
迭代 对 象 ， 即 使 我 们 已 经 访问 完了 序列 中 的 所 有 元 素 ， 我 们 还 可 以 从 头 重新 访问 它 ， 这 和 
生成 器 是 完全 不 同 的 。 


如 果 不 保持 任何 状态 ， 它 们 就 是 基于 对 象 的 生成 器 。 所 有 带 有 iter 方法 的 类 ， 在 用 来 
产生 数据 时 ， 都 可 以 被 作为 无 状态 对 象 生 成 器 来 使 用 。 


1.10.1 准备 工作 


我 们 通过 一 个 简单 的 示例 来 理解 可 迭代 对 象 。 如 果 理 解 了 之 前 介绍 的 生成 器 和 从 代 器 ， 
你 也 能 很 容易 地 理解 这 个 概念 。 


1.10.2 ”操作 方法 


我 们 来 创建 一 个 简单 的 可 迭代 对 象 SimpleIterable， 用 代码 来 演示 如 何 使 用 可 迭 
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代 对 象 。 
# 1. 先 创建 一 个 简单 的 带 有 iter 方法 的 类 


class SimpleIterable (object): 
def _init_ (self, start, end): 
self.start = start 
self.end = end 
def iter (self): 
for x in range(self.start,self.end): 
yield x**2 


# 2.30438 8] 36, 2E ELE E KEAK 
c = SimpleIterable (1,10) 


for val in iter(c): 
tot--val 
print tot 


# 4. 第 二 次 迭代 
tot =0 
for val in iter(c): 


tot--val 


print tot 


1.10.3 工作 原理 

在 第 1 步 中 ， 我 们 创建 了 一 个 简单 的 类 作为 我 们 的 可 和 迭代 对 象 。Init 构造 函数 有 两 
个 参数 ， 起 始 和 结束 ， 这 和 我 们 之 前 的 示例 很 相似 。 我 们 定义 了 一 个 iter 函数 ， 它 将 提 
供 我 们 需要 的 序列 ， 给 定 一 个 数值 范围 ， 返 回 这 些 数 的 平方 值 。 

接 下 来 ， 我 们 采用 两 个 循环 ， 在 第 1 个 循环 中 ， 我 们 迭代 访问 范围 内 的 数值 ， 从 1 到 
10。 当 我 们 进入 第 2 个 for 循环 时 ， 我 们 会 发 现 程序 又 迭代 访问 了 那些 序列 ， 并 且 没 有 出 
现任 何 异 常情 况 。 


1.10.4 参考 资料 
第 1 “Python 在 数据 科学 中 的 应 用 ”中 1.8 节 “ 使 用 办 代 器 ”的 相关 内 容 。 
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第 1.3: "Python 在 数据 科学 中 的 应 用 ”中 1.9 节 “ 生 成 一 个 迁 代 器 和 生成 器 ”的 相关 
na. 


1.11. 将 函数 作为 变量 传递 



































Python 支持 函数 式 编程 ， 除 了 命令 范式 。 在 前 面 的 章节 中 ， 我 们 已 经 接触 到 了 一 些 函 
数 式 编 程 的 概念 ， 不 过 没有 明确 地 说 明 ， 在 这 aT ， 我 们 再 来 回头 看 看 。 在 Python H, K 
数 是 一 等 公民 ， ch 有 属性 ， 可 以 被 引用 ， 并 有 可 以 被 分 配给 一 个 变量 。 


1.11.1 准备 工作 

这 节 里 我 们 将 研究 函数 作为 变量 传递 的 范例 。 
1.11.2 操作 方法 

我 们 先 定义 一 个 简单 的 函数 ， 然 后 看 看 如 何 将 它 当 作 变 量 来 使 用 。 
义 一 个 简单 的 函数 


def square input (x): 






















































































Sk 







































































nd 


return x*x 
2 .把 它 分 配给 一 个 变量 
Square me = square input 











3 .最 后 调用 这 个 变量 


print square me(5) 


1.11.3 工作 原理 


我 们 在 第 1 步 中 定义 了 一 个 简单 的 函数 ， 给 定 一 个 输入 值 ， 这 个 函数 返回 输入 值 的 平 
方 值 。 我 们 将 这 个 函数 分 配给 了 变量 square _me。 最 终 ， 我 们 可 以 通过 输入 一 个 合法 的 
参数 给 变量 square me 来 调用 这 个 函数 。 这 演示 了 在 Python 里 ， 我 们 可 以 将 函数 作为 一 
个 变量 来 对 待 ， 这 是 函数 式 编程 的 重要 概念 。 


1.12 EB ZAR FP ERAN ERA 








































































































这 一 节 将 解释 函数 式 编程 里 的 另 一 个 概念 ， 在 一 个 函数 中 定义 另 一 个 函数 。 























1.13 ”将 函数 作为 参数 传递 ”29 


1.12.1 准备 工作 
我 们 写 一 个 简单 的 函数 ， 它 返回 输入 列表 的 数值 的 平方 和 。 
1.12.2 ”操作 方法 


我 们 定义 一 个 简单 的 函数 ， 用 它 演示 在 函数 中 嵌入 函数 。 



































# 工 .定义 一 个 函数 ， 返 回 给 定 输入 数值 的 平方 和 


def sum square(x): 





def square input (x): 
return x*x 


return sum([square input(x1) for x1 in x]) 


# 2. 输 出 结果 来 检查 是 否 正确 


print sum square([2,4,5]) 


1123 工作 原理 




















我 们 在 第 1 步 中 在 函数 sum square 0 中 定义 了 函数 square input () ， 父 函数 用 
它 来 执行 平方 值 求 和 的 操作 。 在 第 2 步 中 ， 我 们 调用 父 函 数 打印 输出 结果 。 


偷 出 的 结果 如 下 。 

















ri 


1.13. 将 函数 作为 参数 传递 
Python 支持 高 阶 函数 功能 : 将 一 个 函数 作为 另 一 个 函数 的 参数 传递 。 
1.13.1 准备 工作 


我 们 将 前 面 一 个 例子 中 的 函数 square input O 重 写 ， 以 此 演示 一 个 函数 是 如 何 被 
作为 男 一 个 函数 的 参数 进行 传递 。 


1.13.2 ”操作 方法 


请 看 如 何 将 一 个 函数 作为 男 一 个 函数 的 参数 进行 传递 。 
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from math import log 


def square input (x): 


return x*x 


# 工 .定义 一 个 类 函数 ， 它 将 另外 一 个 函数 作为 输入 
# 并 将 它 应 用 到 给 定 的 输入 序列 上 。 
def apply func(func x,input x): 


return map(func x,input x) 


# 2. 这 里 使 用 apply func) 函数 ， 并 校 验 结果 
a = [2,3,4] 


print apply func(square input,a) 


print apply func(log,a) 


1133 ”工作 原理 


我 们 在 第 1 步 中 定义 了 函数 app1y_func， 它 有 两 个 变量 参数 ， 第 1 个 是 一 个 函数 ， 
第 2 个 是 一 个 序列 。 我 们 使 用 了 map 函数 (后 续 章 节 将 介绍 ) 将 给 定 的 函数 应 用 到 序列 中 
的 所 有 元 素 。 


接着 ， 我 们 在 列表 上 调用 apply func, fÆ square input 函数 ， 然 后 是 1og FÉ 
数 ， 输 出 的 结果 如 下 。 




























































































你 会 发 现 ， 所 有 的 列表 元 素 都 被 求 出 了 平方 值 ，map 函数 将 square input 函数 应 
到 序列 里 的 所 有 元 素 上 。 



































0.69314718055994529, 1.0986122886681098, 1.3862943611198906] 
































同样 地 ，1og 函数 也 被 应 用 到 序列 里 的 所 有 元 素 上 。 


1.14 返回 EX ZA 





























i; 


在 这 节 里 ， 我 们 讨论 在 一 个 函数 里 返回 另 一 个 函数 。 
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1.14.1 准备 工作 


我 们 举 一 个 高 中 的 例子 来 说 明 咱 们 使 用 返回 一 个 函数 的 函数 。 我 们 要 解决 的 问题 是 : 
给 定 半径 ， 求 出 不 同 高 度 的 圆柱 体 的 容积 。 


请 参见 :http://www.mathopenref.com/cylindervolume.html。 






































Volume = area * height = pi * r^2 * h 

















上 面 的 公式 可 以 准确 地 求 出 圆柱 体 的 体积 。 
1.14.2 ”操作 方法 


我 们 写 一 个 简单 的 函数 来 演示 在 函数 中 返回 函数 的 概念 ， 此 外 还 有 一 小 段 代码 介绍 如 
何 使 用 。 


1 .定义 一 个 函数 来 演示 在 函数 中 返回 函数 的 概念 
def cylinder vol(r): 

pi = 3.141 

def get vol(h): 


































































































return pi * r**2 * h 


return get vol 


# 2. 定 义 一 个 固定 的 半径 值 ， 在 此 给 定 半 径 和 任意 高 度 条 件 下 ， 写 一 个 函数 来 求 出 体积 


radius = 10 











find volume = cylinder vol (radius) 


# 3. 给 出 不 同 的 高 度 ， 求 解 圆柱 体 的 体积 
height = 10 
print "Volume of cylinder of radius $d and height %d = $.2f cubic\ 





units" $(radius,height,find volume (height)) 
height = 20 
print "Volume of cylinder of radius $d and height $d = $.2f cubic 


units" $(radius,height,find volume (height)) 


1.14.3 ”工作 原理 


在 第 1 步 中 ,我们 定义 了 函数 cylinder vol () ， 它 只 有 一 个 参数 上， 即 半 径 。 在 这 








个 函数 ! 


为 参数 。 对 于 给 定 的 半径 *， 也 即 cylinder vol() 

















给 了 get vol () 。 


cylinder vol() ff 数 ， 
ume 的 变量 中 。 


3 步 中 , 我们 使 用 不 同 的 高 度 值 来 调用 find volume, 如 10 和 20, 请 注意 我 们 


find vol 








在 第 2 p 








在 第 








没有 给 出 半径 值 。 
输出 结果 如 下 。 








Volume of cylinder of radius 10 and height 10 = 
Volume of cylinder of radius 10 and height 20 - 








， 我 们 定义 了 半径 ， 
XX ^ ER COR [n 



































1.4 更 多 内 容 


1.15 EFE bu 


Functools 是 高 阶 函 





数 中 的 一 个 模块 ， 请 参 


在 本 例 ， 
Į get vol1() 


https://docs.python.org/2/library/functools.html 。 


装饰 器 能 封装 


一 个 函数 ， 并 


改变 它 的 行为 ， 








我 们 演示 了 实际 应 用 中 的 一 些 示例 。 
1.15.1 准备 工作 


返回 函数 等 介 


饰 器 


My 


昆 合 大 小 写 并 带 
易 进 行 


还 记得 我 们 在 前 面 章节 


























器 只 是 小 菜 








扩展 。 





有 标点 符号 的 字符 串 ， 我 人 





中 将 函数 作为 妃 一 个 
吗 ? 最 重要 的 是 ， 你 还 记得 那个 
碟 。 在 本 节 的 示例 中 ， 我 们 将 对 给 定 的 字符 串 建 立 清 


改变 函数 行为 














考 以 下 链接 : 





， 我 们 定义 了 另 一 个 函数 get_vol () ， 这 个 函数 获取 r 和 pi 的 值 ， 并 


具体 值 为 10， 调 
函数 ， 我 们 把 它 


将 高 度 作 





的 参数 ， 不 同 高 度 值 被 作为 参数 传递 














j 并 传递 给 了 











存在 名 为 


3141.00 cubic units 
6282.00 cubic units 












































1.15.2 ”操作 方法 














我 们 写 


个 简 


的 装饰 器 来 进行 文本 操作 。 








] 使 


通过 








函数 的 参数 、 函 数 作为 一 个 变 
圆柱 体 的 例子 吗 ? 如 果 你 掌 








IRSE 














EH 


日 装饰 器 对 它 进行 











青 理 


示例 是 理解 它们 的 最 好 方式 ， 本 节 中 














1.15 


from string import punctuation 





def pip 
def 


def 


def 


line wrapper (func): 
to lower (x): 


return x.lower() 


remove punc (x): 
for p in punctuation: 
x = x.replace(p,'') 


return x 


wrapper (*args,**kwargs): 
x = to lower (*args, **kwargs) 
x = remove punc (x) 


return func(x) 


return wrapper 


Gpipeline wrapper 


def tokenize whitespace(inText): 





return inText.split() 


S = "string. With. Punctuation?" 





print tokenize whitespace(s) 





115.3 ”工作 原理 


我 们 先 从 以 下 两 行 开 始 。 


S = "string. With. Punctuation?" 





print tokenize whitespace(s) 











ju 





使 用 装饰 器 改变 函数 行为 ”33 


我 们 声明 了 一 个 字符 串 变 量 ， 然 后 想 对 它 进行 清理 ， 使 之 满足 以 下 特性 。 
。 将 字符 串 转 为 小 写 。 
。 清除 标点 符号 。 

e 返回 一 个 词 列表 。 


我 们 用 字符 串 s 作为 参数 , 调用 了 tokenize whitespac 









































Gpipeline wrapper 





def tokenize whitespace(inText): 








函数 ， 我 们 来 看 看 这 个 函数 。 














return inText.split() 























这 个 函数 很 简单 : 输入 一 个 字符 串 ， 函 数 采 用 空格 作为 分 隔 符 将 它 进行 分 割 ， 并 返回 
一 个 词 列表 。 接 下 来 我 们 使 用 装饰 器 来 改变 这 个 函数 的 行为 ， 这 个 装饰 器 就 是 
epipeline_wrapper， 它 是 以 简便 的 方式 调用 以 下 语句 。 









































tokenize whitespace = pipeline wrapper (clean tokens) 





我 们 仔细 看 看 这 个 装饰 器 函数 。 




















def pipeline wrapper(func): 


def to lower (x): 
return x.lower() 
def remove punc (x): 
for p in punctuation: 
x = x.replace(p,'') 
return x 
def wrapper (*args,**kwargs): 
x = to lower (*args,**kwargs) 
x = remove punc (x) 
return func(x) 
return wrapper 





pipeline wrapper 返回 了 wrapper 函数 ， 在 后 者 中 ， 最 后 的 返回 语句 是 返回 
func， 这 是 我 们 传递 给 wrapper 的 原始 函数 ，wrapper 改变 了 我 们 原来 的 
pipeline wrapper 函数 的 行为 。pipeline_wrappez 的 输入 先 被 to_lower () 函数 
修改 了 ， 转 成 了 小 写 。 随 后 是 remove punc () 函数 ， 将 标点 符号 清除 。 最 后 的 输出 如 下 。 


























['string', 'with', 'punctuation'] 















































以 上 结果 就 是 我 们 所 要 的 : 清除 标点 符号 ， 转 为 小 写字 符 ， 最 后 形式 是 词 的 列表 。 


1.16 ”使 用 lambda 创造 匿名 函数 

















匿名 函数 是 由 Python 中 的 Lambda 语句 产生 的 。 一 个 没有 被 命名 的 函数 就 是 匿名 函数 。 
1.16.1 ”准备 工作 


如 果 你 掌握 了 将 函数 作为 参数 传递 的 内 容 ， 你 会 发 现 这 节 的 示例 和 它 非 常 相似 。 这 节 








1.7. 使 用 映射 函数 35 


我 们 会 传递 一 个 预定 义 的 函数 ， 一 个 lambda 函数 。 


1.16.2 ”操作 方法 














我 们 写 一 个 简单 的 操作 小 型 数据 集 的 示例 ， 来 解释 Python 中 的 匿名 函数 。 
# 1 .创建 一 个 简单 的 列表 ， 写 一 个 类 似 于 1.13 节 “ 将 函数 作为 参数 传递 ”中 的 函数 











a =[10,20,30] 


def do list(a list,func): 
total = 0 
for element in a list: 


total-c-func (element) 


return total 


print do list(a,lambda x:x**2) 
print do list(a,lambda x:x**3) 








b -[lambda x: x$3 --0 for x ina | 


1163 ”工作 原理 


E 12, do list 函数 接受 另 




















一 个 函数 作为 参数 。 在 输入 的 列表 和 函数 的 共同 作用 






































F, do list 函数 应 用 输入 的 函数 对 给 定 的 列表 中 的 元 素 进行 处 理 ， 对 要 转换 的 数值 进行 








求 和 ， 并 返回 结果 。 
































接着 ,对 do list 函数 进行 调用 ,第 

















们 的 Lambda 函数 ， 我 们 来 解码 它 。 


lambda x:x**2 





























1 个 参数 是 我 们 输入 的 列表 a. 982 个 参数 是 我 


通过 关键 字 lambda， 我 们 就 声明 了 一 个 匿名 函数 ， 跟 着 是 定义 一 个 函数 的 参数 ， 本 





























例 中 ，x 就 是 被 传递 给 这 个 匿名 函数 的 参数 名 。 表 达 式 中 跟 在 冒号 符 之 后 的 是 返回 值 ， 输 


入 参数 按照 表达 式 进行 运算 ， 并 给 出 返回 值 。 本 例 中 ， 输 入 值 的 平方 值 被 返回 作为 输出 。 
























































第 2 个 print 语句 里 ， 我 们 有 另 一 个 Lambda 函数 ， 用 来 返回 给 定 输入 的 立方 值 。 





1.17 使 用 映射 函数 




















H 


map 是 Python 中 的 内 置 函 数 , 它 使 








一 个 函数 和 一 个 可 壕 代 对 象 作为 参数 , 形式 如 下 。 
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map(aFunction, iterable) 


1.17.1 准备 工作 























我 们 来 看 一 个 非常 简单 的 使 用 map 函数 的 示例 。 











1.17.2 ”操作 方法 


我 们 看 看 如 何 使 用 map 函数 的 示例 。 






































# 首 先 声明 一 个 列表 
a -[10, 20, 30] 
# 现 在 ,在 print 语句 中 调用 map 函数 


print map(lambda x:x**2,a) 








117.3 ”工作 原理 




















这 和 上 一 节 中 的 代码 很 相似 ，map 函数 有 两 个 参数 ， 第 1 个 是 一 个 函数 ， 第 2 个 











个 序列 。 本 例 中 ， 我 们 使 用 了 匿名 函数 。 





lambda x:x**2 


这 个 

















B 
map 函数 对 给 定 列表 中 的 所 有 元 素 应 
输出 结果 如 下 。 








[100,400,900] 


1.17.4 更 多 内 容 


























同样 地 ， 其 他 函数 也 可 以 被 应 用 到 列表 上 。 











print map(lambda x:x**3,a) 








HU 





使 用 map 函数 ， 我 们 可 以 把 上 一 节 ! 

















的 代码 段 改 写成 











print sum(map (lambda x:x**2,a)) 


print sum(map (lambda x:x**3,a)) 








数 求 出 给 定 输入 值 的 平方 值 。 我 们 还 传递 了 一 个 列表 给 map 函数 。 
和 了 求 平 方 值 函数 ， 并 以 列表 的 形式 返回 结 





行 的 代码 。 











果 。 
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如 果 应 用 的 函数 需要 N 个 参数 ， 则 map 函数 参数 也 需要 N 个 序列 ， 请 看 下 面 的 示例 
以 增进 理解 。 
10,20,30] 
[142,3] 

















a 
b 


print map (pow,a,b) 




















我 们 传递 了 a. o 两 个 序列 给 map 函数 ， 请 注意 传递 的 函数 是 power 函数 ， 它 需要 两 
个 参数 。 上 面 示例 的 输出 结果 如 下 。 


[10, 400, 27000] 





























列表 a 中 的 各 个 元 素 ， 被 计算 出 以 列表 b 中 相同 位 置 的 值 为 指数 的 寡 值 。 请 注意 ， 两 
d 必须 是 相同 的 大 小 ， 如 果 不 满足 这 个 条 件 ，Python 会 自动 将 较 小 的 那个 列表 补足 
空 值 。 这 个 示例 演示 的 是 列表 类 型 ， 其 他 任何 可 从 代 对 象 也 都 能 被 传递 给 map 函数 。 


1. 18 使 用 过 滤器 




























































































顾名思义 ， 过 滤器 就 是 按照 给 定 的 函数 从 一 个 序列 中 过 滤 出 相应 的 元 素 。 给 定 一 个 包 
含 负数 和 正 数 的 序列 ， 我 们 可 以 使 用 过 滤器 函数 将 所 有 的 负数 过 滤 出 来 。 过 滤器 filter 
是 Python 的 内 置 函数 ， 它 使 用 一 个 函数 和 一 个 可 迭代 对 象 作 为 参数 。 



































filter(aFunction, iterable) 








BX 


数 被 作为 参数 传递 ， 返 回 一 个 测试 结果 的 布尔 值 。 
函数 被 应 用 到 可 人 迭代 对 象 的 所 有 元 素 ， 测 试 值 为 真 的 所 有 项 以 列表 的 形式 作为 返回 值 。 
lambda 匿名 函数 最 常 被 用 来 和 filter 函数 配合 。 


1.18.1 准备 工作 
请 看 一 个 简单 的 示例 演示 filter 函数 用 法 。 
1182 ”操作 方法 


请 看 如 何 使 用 过 滤器 filter 函数 的 示例 。 
# 先 声明 一 个 列表 
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a = [10,20,30,40,50 
# 应 用 filter 函数 到 列表 的 所 有 元 素 上 
print filter(lambda x:x»10,a) 








1183 ”工作 原理 


我 们 使 用 的 Iambda 函数 很 简单 ， 当 给 定 的 值 大 于 10 时 ， 它 返回 真 值 ， 否 则 返回 假 值 。 
我 们 的 print 语句 给 出 下 面 的 结果 。 


















































[20, 30, 40, 50] 





如 你 所 见 ， 只 有 大 于 10 的 元 素 才 被 返回 。 


1.19 使 用 zip 和 izip 函数 




















zip 函数 将 两 个 相同 长 度 的 集合 合并 成 对 ， 它 是 Python 的 内 置 函 数 。 
1.19.1 准备 工作 

我 们 通过 一 个 简单 示例 来 演示 zip 函数 。 
1.19.2 ”操作 方法 


我 们 传递 两 个 序列 给 zip 函数 ， 并 打印 输出 。 

















print zip(range(1,5),range(1,5)) 


1.9.3 工作 原理 


本 例 中 zip 函数 的 两 个 参数 是 两 个 列表 ， 这 两 个 列表 都 是 由 从 1 到 5 的 数值 组 成 。range 
函数 有 3 个 参数 : 起 始 数值 、 结 束 数值 和 步 长 ， 默 认 步 长 为 1。 本 例 中 ,我们 分 别 把 1 和 5 
作为 列表 的 起 始 和 结束 值 。 记 住 ，Python 是 右 侧 关闭 的 ， 所 以 range (1, 5) 将 返回 如 下 。 












































[1,2,3,4] 


我 们 传递 了 两 个 序列 给 zip 函数 ， 输 H 


EE 
n 
Hm 





RP. 
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记 住 两 个 集合 的 大 小 必须 一 致 ， 如 果 不 满足 ， 则 输出 结果 会 削减 以 匹配 较 小 的 集合 
大 小 。 


1.19.4 更 多 内 容 


现在 请 看 下 面 的 代码 。 

















x,y = zip(*out) 
print x,y 




















你 能 猜 到 输出 结果 是 什么 样 的 吗 ? 


我 们 来 看 看 * 操 作 符 是 做 什么 的 ， 它 用 来 将 集合 中 的 每 个 元 素 作为 位 置 参 数 进行 
传递 。 


























a =(2,3) 
print pow (*a) 














power 函数 需要 两 个 参数 ，a 是 一 个 元 组 ， 你 会 发 现 ，* 操 作 符 将 元 组 分 为 了 两 个 独 
立 的 参数 。 它 把 元 组 分 成 了 2 和 3, 两 者 被 作为 参数 传递 , 即 pow (2, 3)， 得 到 的 结果 是 8。 
** 操 作 符 可 以 用 来 将 字典 中 的 元 素 进 行 分 解 ， 我 们 看 如 下 的 代码 段 。 















































a drct = ("x":10,"y":10,"z":10,"x1":10;,"ylT":10,"21":10)j 























xx 操作 符 将 字典 中 的 元 素 变 成 命名 参数 进行 传递 。 本 例 中 ,我 们 使 用 ** 操 作 符 对 字典 
进行 操作 ， 会 得 到 6 个 参数 。 请 看 如 下 的 函数 ， 它 需要 6 个 参数 。 











def dist(x,y,z,xl,y1,z1): 
return abs((x-x1l)-*(y-y1)-*(z-z1)) 





print dist (**a dict) 


print 语句 的 输出 结果 是 0。 


使 用 这 两 种 操作 符 ， 我 们 可 以 编写 一 些 函 数 ， 可 以 接收 的 变量 参数 个 数 不 再 受 限 。 
































def any sum(*args): 
tot = 0 
for arg in args: 
tott-arg 
return tot 
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print any sum(1,2) 


print any sum(1,2,3) 


如 你 所 见 ,， 上 面 代码 中 的 any sum 函数 可 以 使 用 作 








疑惑 ， 为 什么 不 使 月 








可 到 





zip 函数 的 应 












































使 用 两 个 
在 需要 的 时 候 计 和 





























节 “ 使 用 itertools 
参考 资料 
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1.19.5 





?» I 


超大 的 列表 时 ， 可 能 会 


Python 在 数据 科学 中 的 应 用 


列表 作为 any sum 函数 的 参数 呢 ? 确 
数 ， 但 我 们 很 快 就 会 遇 到 一 些 情形 ， 这 些 情形 下 ， 我 们 甚至 不 知道 要 传递 什么 类 型 
JEX, zip 函数 的 一 个 缺点 是 它 会 立刻 
出 现 一 些 问题 。 
相应 的 元 素 。izip 是 itertools 模块 的 一 个 组 成 部 分 ， 请 参阅 1.24 











的 相关 内 容 。 























E 意 数量 的 变量 。 严谨 的 读者 可 能 会 



































实 本 例 可 以 使 用 列表 来 传递 参 
的 参数 。 
































计算 完 一 个 列表 ， 当 我 们 





izip 函数 








^E] 








j 来 解决 此 类 状况 的 ， 它 只 























的 应 














J” m 1.24 节 “ 使 ) 











] itertools ”的 相关 内 容 。 





1.20 ”从 表格 数据 使 用 数组 





数据 科学 的 应 月 
































握 使 




















在 机 器 学 习 中 对 数据 ; 
而 在 此 之 前 ， 传 输 数 据 ， 把 数据 清洗 到 匹配 算法 ， 可 能 已 经 花费 了 很 长 的 时 间 。 
通常 ， 有 很 多 种 方法 对 数据 进行 整理 使 之 适合 数据 科学 程 
开发 者 首先 面 对 的 挑战 是 如 何 访问 数据 ， 并 用 Python 的 数据 结构 让 这 些 数据 持续 可 用 。 掌 
] Python 访问 数据 的 诀 罕 是 非常 有 用 的 ， 能 让 你 避 过 纷扰 ， 直 接 面 对 问题 的 核心 
一 般 数据 是 以 文本 的 形式 存放 的 ， 月 


行 预测 或 分 类 ， 
























































程序 要 成 功 解决 一 个 问题 ， 必 须 先 找到 适当 的 处 理 数据 的 方法 。 例 如 
要 么 采用 有 监督 的 方 

















法 ， 要 么 采用 无 监督 的 方法 。 
































序 进行 处 理 ， 数 据 科 学 程序 
































内 容 。 











日 过 号 或 者 tab 作为 分 隔 符 。 我 们 可 以 采用 Python 


的 内 置 文件 对 象 工 具 来 进行 处 理 。 如 前 所 述 ， 文 件 对 象 实现 了 _iter_() 和 next () 方 法 ， 


这 让 我 们 可 以 处 理 非常 大 的 文件 ， 这 些 文件 无 法 一 次 全 部 装 








中 的 一 小 部 分 。 


Python 的 机 器 学 习 库 (如 scikit-learn) 就 是 基于 NumPy 库 ， 在 这 节 中 ， 我 们 将 
研究 如 何 高 效 地 读 取 外 部 数据 ， 并 将 之 转 为 NumPy 的 数组 以 便 后 续 的 数据 处 理 。 


1.20.1 准备 工作 



































载 到 内 存 里 ， 





只 能 每 次 读 取 其 























NumPy 提供 了 一 了? genfromtxt 函数 可 以 从 表格 数据 中 创建 数组 ,数据 存放 到 NumPy 


数组 
何 使 
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中 以 后 ， 系 统 处 理 数 据 就 轻松 得 多 。 我 们 通过 一 个 NumPy 1.8.0 编写 的 代码 来 看 看 如 
用 genfromtexto 








1.20.2 ”操作 方法 








我 们 先 从 导入 必需 的 库 开 始 ， 先 定义 输入 的 例子 ， 然 后 演示 如 何 处 理 表 格 数据 。 
# 工 .我 们 先 用 Stringro 来 模拟 一 个 小 型 的 表格 数据 


import numpy as np 








from StringIO import StringIO 
in data = StringIO("10,20,305n56,89,90Xn33,46,89") 


+ 2 .使 用 NumPy 的 gen£romtxt 来 读 取 数 据 ， 并 创建 一 个 NumPy 数组 
data = np.genfromtxt(in data,dtype-int,delimiter-",") 





# 3 .清除 掉 一 些 我 们 不 需要 的 列 
in data = StringIO("10,20,305n56,89,90Nn33,46,89") 
data = np.genfromtxt(in data,dtype-int,delimiter-",",usecols-(0,1)) 





# 4. 设 定 列 名 
in data = StringIO("10,20,305n56,89,90Nn33,46,89") 
data = np.genfromtxt(in data,dtype-int,delimiter-",",names-"a,b,c") 





# 5. 使 用 列 名 来 处 理 数据 
in data = StringIO("a,b,c\n10,20,30\n56,89,90\n33,46,89") 
data = np.genfromtxt (in data,dtype=int,delimiter=",",names=True) 





1.20.3 ”工作 原理 


列 则 


的 第 
数 人 允 




















第 1 步 中 , 我 们 用 StringIO 来 模拟 表格 数据 , 有 3 个 行 和 3 个 列 , 行 通过 换行 表示 ， 
通过 逗号 分 隔 。 


第 2 步 中 ， 我 们 用 NumPy 的 genfromtxt 导入 数据 到 NumPy 数组 。genfromtxt 
























































一 个 参数 是 文件 源 和 文件 名 ， 本 例 中 是 stringI0 对 象 。 输 入 由 逗号 分 隔 ， 分 隔 符 参 
许 我 们 自己 定义 分 隔 符 。 运 行 上 面 的 代码 后 ， 数 据 格 式 如 下 。 
>>> data 
array([[10, 20, 30], 
[56, 89, 90] 


[33, 46, 89]]) 


42 第 1 章 Python 在 数据 科学 中 的 
如 你 所 见 ， 我 们 成 功 地 将 字符 串 数 据 加 载 到 了 NumPy 数组 中 。 
1.20.4 更 多 内 容 


下 面 列 出 了 genfromtxt 函数 的 各 个 参数 以 及 默认 值 。 





E 
2H 

















genfromtxt(fname, dtype-«type 'float'», comments-'£', delimiter-None, 











Skiprows-0, skip header-0, skip footer-0, converters-None, 


missing-'', missing values-None, filling values-None, usecols-None, 





names-None, xcludelist-None, deletechars-None, replace space-' ', 








autostrip-False, case sensitive-True, defaultfmt-'f$i', unpack-None, 





usemask-False, loose-True, invalid raise-True) 








唯一 必 备 的 参数 是 数据 源 的 名 字 ， 本 例 中 是 一 个 StringI0 对 象 ， 它 可 以 是 一 个 文件 
名 或 者 带 有 read 方法 的 类 似 于 文件 的 对 象 ， 也 可 以 是 一 个 远程 文件 的 URL. 

首先 必须 将 给 定 的 行 分 成 列 ， 当 文件 被 打开 进行 读 取 时 ，genfromtxt 将 非 空 行 切 分 
成 一 个 字符 串 序 列 。 空 行 和 注释 行 会 被 忽略 ， 注 释 选 项 帮助 gentext 判断 哪些 行 是 注释 
行 。 我 们 指定 的 分 隔 符 将 字符 串 切 分 为 列 。 我 们 的 示例 使 用 “,” 作 为 分 隔 符 。 制 表 符 “At” 
也 是 一 种 常用 的 分 隔 符 。gentext 的 默认 分 隔 符 是 None, 这 意味 着 行 被 空格 分 成 多 个 列 。 

一 般 而 言 ， 行 被 转换 成 字符 串 序列 之 后 ， 列 被 茜 取 出 来 ， 每 个 独立 的 列 并 没有 被 清除 
前 导 或 者 后 导 的 空格 。 在 上 面 示例 代码 的 后 面部 分 ， 这 种 情况 需要 进行 处 理 ， 特 别 是 有 些 
变量 要 被 作为 字典 的 键 。 例 如 ， 若 是 前 导 或 后 导 的 空格 没有 被 处 理 完 全 ， 代 码 可 能 会 出 现 
bug 或 错误 。 设 置 参 数 autostrip=True 有 助 于 避免 这 类 问题 。 

很 多 情况 下 ， 我 们 在 读 取 文件 的 时 候 要 跳 过 一 些 数据 ， 比 如 跳 过 最 前 n 行 或 者 最 后 n 
行 ， 这 就 需要 使 用 headers 和 footers 23. WE skip header-n 会 在 读 文件 时 跳 过 最 开 
始 的 n 行 。 类 似 地 ， 设 置 skip footer=n 则 跳 过 最 后 的 n 行 。 


和 不 需要 的 行 类 似 ， 有 时 我 们 需要 跳 过 一 些 列 ，usecols 参数 可 以 指定 一 个 包含 所 需 
要 的 列 的 列表 。 
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Tp 





















































in data = StringIO("10,20,305n56,89,90Mn33,46,89") 
data = np.genfromtxt(in data,dtype-int,delimiter-",",usecols-(0,1)) 





























在 上 面 的 示例 中 ， 我 们 只 选择 了 两 个 列 ， 第 0 和 第 1 列 。 数 据 对 象形 式 如 下 。 


>>> data 
array ([[10, 20], 
[56, 89], 
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[33, 46]]) 





使 用 names 参数 ， 我 们 可 以 自 定 义 列 名 ， 由 喜 号 分 隔 的 列 名 字符 串 参 数 形 式 如 下 。 











in data = StringIO("10,20,30\n56,89,90\n33,46,89") 
data = np.genfromtxt(in data,dtype-int,delimiter-",",names-"a,b,c") 


>>> 





data 


array (T (10; 20, 30), (56, 89, 90), (33, 46, 89)], 


dtype-[('a', '«i4'), ('b', '«i4'), ('c', '«i4')]) 


设 定 names 参数 为 真 ， 输 入 文件 的 第 1 行 会 被 当成 列 名 。 





in data = StringIO("a,b,cNn10,20,305n56,89,90Nn33,46,89") 
data = np.genfromtxt(in data,dtype-int,delimiter-",",names-True) 


222 





data 


array([(10, 20, 30), (56, 89, 90), (33, 46, 89)], 


NumPy 里 还 有 个 叫 作 1oadtxt 的 方法 可 以 方便 地 从 文本 文件 中 创建 NumPy 数组 ， 请 参 


dtype-[('a', '«i4'), ('b', '«i4'), ('c', '«i4')]) 



























































阅 : http://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html. 














提供 了 < 





htt 


这 个 函数 比 genfromtxt 要 简单 一 些 ， 如果 你 不 需要 复杂 的 数据 处 理 架构 ， 比 如 处 理 
丢失 的 数据 等 情况 ， 你 可 以 选用 1oaqtxt。 


此 外 ， 如 果 你 不 需要 装载 数据 到 NumPy H, KA 

































































ci 


把 数据 加 载 到 列表 中 ，Python 默认 
sv 库 ， 可 以 参考 下 面 的 URL. 


ps://docs.python.org/2/library/csv.html. 






































上 面 这 个 csv 库 里 有 一 个 有 趣 的 方法 叫 作 csv.Sniffer.sniff() 。 要 处 理 一 个 很 大 



































的 csy 文件 时 ， 我 们 要 理解 它 的 结构 ， 就 可 以 使 用 sniff () 函数 ， 它 返回 一 个 具有 csv X 
件 大 部 分 属性 的 子 类 。 


1. 21 


3l 








对 列 进行 预 处 理 
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] 获 取 的 数据 经 常 并 不 是 我 们 能 直接 使 用 的 格式 。 我 们 需要 执行 一 系列 在 机 器 学 习 




















术语 中 称 为 数据 预 处 理 的 数据 处 理 过 程 。 殉 服 这 个 障碍 的 一 条 途径 是 采用 字符 串 的 形式 获 
取 所 有 数据 ， 在 后 续 的 场景 里 再 执行 需要 的 数据 格式 转换 。 还 有 一 种 办 法 是 在 数据 源 阶段 
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就 完成 这 些 转换 工作 。genfromtxt 提供 了 一 些 函数 ， 让 我 们 可 以 在 读 取 数 据 源 的 时 候 执 
行 数据 转换 。 


1.21.1 准备 工作 


假定 我 们 有 如 下 的 文本 行 。 





30kg, inr2000,31.11,56.33,1 
52kg,inr8000.35,12,16.7,2 




















这 是 一 个 我 们 获取 到 的 生活 中 的 常见 数据 样 例 ， 开 头 的 两 个 列 
和 “inr” 在 真正 的 数据 的 后 面 和 前 面 。 


我 们 来 试 试 如 下 方法 将 数据 放 入 NumPy 数组 中 。 








里 ， 分 别 有 字 符 串 “kg” 



































in data = StringIO("30kg,inr2000,31.11,56.33,1^ 
n52kg,inr8000.35,12,16.7,2") 


data = np.genfromtxt(in data,delimiter-",") 





输入 结果 如 下 。 

>>> data 

array CIL nan: nan, 3l.Ll, 56.32, I. I; 
[ nan, nan, 12. , 16.7 , 2. TFI 





如 你 所 见 ， 开 始 的 两 个 列 的 数据 并 没有 被 读 取 。 
1.21.2 ”操作 方法 


我 们 首先 导入 必需 的 库 ， 然 后 定义 一 个 输入 相 





























HT 





板 ， 


git 


后 演示 一 下 数据 预 处 理 。 


S 





import numpy as np 
from StringIO import StringIO 


# 定义 一 个 数据 集 
in data = StringIO("30kg,inr2000,31.11,56.33,1^ 
n52kg,inr8000.35,12,16.7,2") 





4 1.7] lambda 函数 定义 两 个 数据 预 处理 函 数 
strip func 1 = lambda x : float(x.rstrip("kg")) 
strip func 2 = lambda x : float(x.lstrip("inr")) 











2 .创建 一 个 函数 的 字典 


convert funcs = (0:strip func 1,1:strip func 2} 


3 .将 这 个 函数 的 字典 传递 给 genfromtxt 
data = np.genfromtxt(in data,delimiter-",", converters-convert funcs) 


4 .使 用 Lambda 函数 来 处 理 转换 过 程 
in data = StringIO("10,20,305n56,,90*5n33,46,89") 


mss func = lambda x : float(x.strip() or -999) 


data 


1.21. 工作 原理 








另 一 个 将 列 2 中 的 字符 串 “inr” 从 左面 清除 。 


























这 个 字典 被 作为 参数 converters 传递 给 genfromtxt。 





现在 印 输出 结果 如 下 。 





>>> data 
array([[ 3.00000000e+01, 2.00000000e+03, 3.11100000e+01, 





5.63300000e+01, 1.00000000e+00], 
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[ 5.20000000e+01, 8.00035000e+03, 1.20000000e+01, 








1.67000000e+01, 2.00000000e+00]]) 

















请 注意 Nan 值 不 见 了 ， 我 们 获取 到 了 输入 数据 里 的 真实 值 。 


1.21.4 更 多 内 容 
converters 还 能 用 Lambda 函数 来 处 理 输入 中 丢失 的 记录 。 


值 ， 


in data = StringIO("10,20,305n56,,905n33,46,89") 








mss func - lambda x : float(x.strip() or -999) 
= np.genfromtxt(in data,delimiter-",", converters-(1:mss func]) 


data 


lambda 函数 返 











H 














>>> data 
array([[ 10., 20., 30.], 











B, 582 列 第 





-999 来 蔡 代 丢失 的 数据 。 在 我 们 的 输入 旨 
因而 会 被 蔡 换 为 -999， 最 终 的 输出 如 下 所 示 。 





= np.genfromtxt(in data,delimiter-",", converters-(1:mss func]) 











第 1 步 中 ,我 们 定义 了 两 个 lambda 函数 ， 一 个 将 列 1 中 的 字符 串 “kg” 从 右面 清除 ， 


第 2 步 中 ， 我 们 继续 定义 一 个 字典 ， 它 的 键 就 是 将 被 函数 应 用 的 列 名 ， 值 就 是 函数 。 
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E Dber =99.9 90.T, 
L 33., 46., 89.]]) 
































访问 以 下 SciPy 文档 的 链接 ， 你 能 了 解 到 更 多 的 细节 : 
http://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html 和 


http://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html - 


1.22 ”列表 排序 




















我 们 先 讨论 列表 排序 ， 然 后 扩展 到 对 其 他 可 友 代 对 象 的 排序 。 
1.22.1 ”准备 工作 


排序 有 两 种 方法 ， 第 1 种 是 使 用 列表 里 内 置 的 sort 函数 。 第 2 种 是 使 用 sorted K 
数 。 我 们 通过 示例 来 进行 说 明 。 
1.22.2 ”操作 方法 

我 们 来 看 看 如 何 使 用 sort 和 sorted 函数 。 

# 先 看 一 小 段 代码 ， 对 给 定 的 列表 进行 排序 


a= [8, 0, 3, 4, 5, 2, 9, 6, 7, 1] 
b= [8, 0, 3, 4, 5, 2, 9, 6, 7, 1] 






























































print a 
a.sort() 


print a 
print b 


bs = sorted (b) 
print b s 


1.223 工作 原理 


我 们 声明 了 两 个 列表 a 和 bb， 它们 的 元 素 完全 相同 ， 打 印 输出 列表 a 来 进行 检验 。 
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我 们 使 用 sort 函数 来 处 理 列表 数据 类 型 ， 用 a. sort() 来 执行 位 置 排 序 ， 下 面 的 
print 语句 展示 了 被 排序 之 后 的 列表 。 




















现在 ， 我 们 来 试 试 sorted 函数 ， 这 个 函数 对 列表 进行 排序 ， 返 回 一 个 新 的 排序 后 的 
列表 。 我 们 通过 sorted (b) 来 调用 ， 排 序 后 的 输出 存在 b_s 中 ，print 语句 输出 如 下 的 


-E FH 
结果 。 





















































1.22.4 更 多 内 容 


sort 函数 只 对 列表 数据 类 型 有 效 ， 默 认 排 序 是 按照 升序 进行 的 ， 可 以 通过 reverse 
参数 来 控制 sort 函数 的 排序 方式 ， 默 认 情 况 下 ，reverse 参数 被 设置 为 False。 






































>>> a E87 Oy 3454 Dr 9, 6, Tyo L 
>>> print a 

95. Dy 34 A Gr 6,5 3] 

>>> a.sort(reverse-True) 

>>> print a 

95584-15408, bis dr Lu 2 0 

>>> 








现在 是 降序 排序 。 
其 他 可 迭代 对 和 象 只 能 采用 sorted 函数 ， 我 们 看 一 个 元 组 的 示例 。 





























> 了 80 
>>> sorted(a) 

[07- 1, 25- 35 ^4. Or. 10, 11,795. 97 

>>> 


1.23 采用 键 排序 






































到 目前 为 止 ， 我 们 的 示例 都 是 采用 元 素 对 列表 或 其 他 序列 进行 排序 ， 现 在 我 们 来 试 试 
] 采 用 键 排序 。 在 前 面 的 那些 示例 中 ， 元 素 即 是 键 。 而 在 真实 场景 中 ， 记 录 的 复杂 度 
要 高 得 多 ， 一 条 记录 包含 了 多 个 列 ， 我 们 有 时 需要 对 其 中 一 个 或 多 个 列 进行 排序 。 我 们 通 
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过 对 一 个 元 组 的 列表 进行 排序 来 曾 述 ， 并 将 之 推广 到 其 他 的 序列 类 型 。 
1.23.1 ”准备 工作 

本 示例 中 ， 一 个 单独 的 元 组 表示 一 个 人 的 个 人 记录 ， 包 括 名 字 、ID、 年 龄 等 。 我 们 来 
编写 一 段 对 不 同 的 域 进行 排序 的 代码 。 
1.23.2 ”操作 方法 

我 们 使 用 列表 和 元 组 来 编写 一 个 记录 类 的 结构 ， 并 使 用 这 些 数 据 演示 如 何 采 用 键 进行 
排序 。 

+ 1 .首先 创建 一 个 元 组 组 成 的 列表 用 来 测试 排序 

mployee records = [ ('joe',1,53), ('beck',2,26), \ 

('ele',6,32), ('neo',3,45), N 


(*echrrst',5,33)5 ( trinity*,4,29);, X 
] 











































































































2 .使 用 雇员 名 字 进 行 排序 

print sorted(employee records,key-lambda emp : emp[0]) 

输出 结果 如 下 。 

(hbeck; 25,-26y,; ('ohrist';.5, 33); (telen; 6; 32); (!j089';,- 1. 59)7N 
('neo', 3, 45), ('trinity', 4, 29)] 

3. 使 用 雇员 ID 进行 排序 

print sorted(employee records,key-lambda emp : emp[1]) 

输出 结果 如 下 。 

(Joet; Ty 53), ('beck', 2, 20), ('neo', 3, 45b), ('trinity', 4, 29);,N 
('christ', 5, 33), ('ele', 6, 32)] 

4. 使 用 雇员 年 龄 进行 排序 

print sorted(employee records,key-lambda emp : emp[2]) 


"nnm 



































输出 结果 如 下 。 


[('beck', 2, 26), ('trinity', 4, 29), ('ele', 6, 32), ('christ', 5,N 
33), ('neo', 3, 45), ('joe', 1, 53)] 


"mnm 
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1233 ”工作 原理 


























在 我 们 的 示例 中 ， 每 条 记录 有 3 个 域 : 姓名 、ID 和 年 龄 。 我 们 使 用 lambqa 函数 来 将 
我 们 需要 排序 的 键 进行 传递 。 在 第 2 步 中 ， 我 们 将 姓名 作为 键 来 进行 排序 。 类 似 地 ， 在 第 
2 步 和 第 3 步 中 ， 都 分 别 采 用 了 ID 和 年 龄 作为 键 ， 这 些 不 同步 又 里 的 不 同 输出 结果 显示 了 
我 们 想 要 的 排序 结果 。 


1.23.4 更 多 内 容 


由 于 键 排序 十 分 重要 ，Python 提供 了 快捷 的 函数 来 访问 键 ， 而 不 用 自己 写 lambda FR 
Zi. operator 模块 中 提供 了 itemgetter. attrgetter fll methodcaller 等 几 个 函 
数 。 前 面 排序 示例 我 们 可 以 使 用 ijtemgetter 来 重 写 ， 代 人 码 如 下 。 
































































































































from operator import itemgetter 

mployee records = [ ('joe',1,53), ('beck',2,26), \ 
('ele',6,32),('neo',3,45), N 
(*christ',5,33),('trinity',4,29); X 
] 

print sorted(employee records,key-itemgetter (0) ) 


"nnm 











[('beck', 2, 26), ('christ', 5, 33), ('ele', 6, 32), ('joe', 1, 53),^ 
('neo', 3, 45), ('trinity', 4, 29)] 


"mnm 





print sorted(employee records,key-itemgetter (1)) 


"mmm 


[('joe', 1, 53), ('beck', 2, 26), ('neo', 3, 45), ('trinity', 4, 29), 
('christ', 5, 33), ('ele', 6, 32)] 


"mmm 





print sorted(employee records,key-itemgetter (2)) 
[('beck', 2, 26), ('trinity', 4, 29), (telet; 6, 32), ('christ', 5,* 
33), ('neo", 3, 45), ('joe", l1; 53)] 


"mmm 
























































请 注意 我 们 不 再 使 用 Lambda 函数 , 而 是 采用 itemgetter 来 指定 我 们 用 来 排序 的 键 。 
如 果 需 要 多 级 排序 ，itemgettet 可 以 接收 多 个 用 来 排序 的 域 。 例 如 ， 我 们 先 对 名 字 ， 再 
对 年 龄 进行 排序 ， 那 代码 如 下 。 
























































>>> sorted(employee records,key-itemgetter (0,1)) 
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[('beck', 2, 26), ('christ', 5, 33), ('ele', 6, 32), ('joe'!, 1, 53), 
('neo', 3, 45), ('trinity', 4, 29)] 




















如 果 可 迭代 对 象 里 的 元 素 是 类 对 象 ， 则 可 以 用 attrgetter fll methodcaller 轻松 
搞定 。 请 看 如 下 示例 。 
# 将 雇员 记录 封装 为 类 对 象 


class employee (object): 
def | init (self,name,id,age): 





























self.name - nam 
self.id = id 
self.age = age 


def pretty print(self): 
print self.name,self.id,self.age 




















mployee records ] 

mpl = employee('joe',1,53) 
mp2 = employee('beck',2,26) 
mp3 = employee('ele',6,32) 


employee records.append(empl) 
employee records.append(emp2) 
employee records.append(emp3) 





# 打印 输出 记录 


for emp in employee records: 





emp.pretty print() 


from operator import attrgetter 





employee records sorted = sorted (employ 





records,key-attrgetter('age')) 
# 打印 输出 排序 后 的 记录 


for emp in employee records sorted: 











emp.pretty print() 























构造 器 使 用 name. age 和 ID 等 3 个 变量 对 类 进行 初始 化 ， 类 还 拥有 一 个 
pretty print 方法 来 输出 类 对 象 的 各 个 值 。 


接着 ， 把 这 些 类 对 象 填 入 一 个 列表 。 



































mployee records = [] 








mpl = employee ('joe',1,53) 








mp2 = employee('beck',2,26) 
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mp3 = employee('ele',6,32) 

employee records.append(empl) 
employee records.append(emp2) 
employee records.append(emp3) 


现在 ， 我 们 有 一 个 雇员 对 象 的 列表 ， 每 个 对 象 中 有 3 个 变量 : name. ID 和 age. R 
们 将 列表 打印 输出 来 观察 其 顺序 。 























joe 1 53 
beck 2 26 
ele 6 32 





如 你 所 见 ， 你 的 输入 顺序 被 保留 下 来 了 。 现 在 ， 我 们 使 用 attrgetter 根据 age 域 
来 对 列表 进行 排序 。 

















employee records sorted = sorted (employ 





records, key=attrgetter('age')) 








打印 输出 排序 后 的 列表 ， 结 果 如 下 。 





beck 2 26 
ele 6 32 
joe 1 53 











记录 已 经 被 按照 年 龄 进行 了 排序 。 


如 果 想 用 类 里 的 某 个 方法 来 决定 排序 方式 , 我 们 得 使 用 methodcaller。 我 们 设计 一 
个 演示 场景 : 添加 一 个 随机 方法 ， 将 年 龄 除 以 ID. 





















































class employee (object): 








def | init (self,name,id,age): 
self.name - nam 
self.id = id 
self.age = age 





def pretty print(self): 
print self.name,self.id,self.age 


def random method (self): 
return self.age / self.id 





+ 填充 数据 


mployee records = [] 
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mpl = employee('joe',1,53) 
mp2 = employee('beck',2,26) 
mp3 = employee('ele',6,32) 


employee records.append(empl) 
employee records.append(emp2) 





employee records.append(emp3) 


from operator import methodcaller 

employee records sorted = sorted(employee records,key-methodcaller('ra*N 
ndom method')) 

for emp in employee records sorted: 








emp.pretty print() 








现在 我 们 调用 这 个 方法 来 进行 排序 。 


sorted (employee records, key=methodcaller ('random method')) 




















打印 输出 排序 后 的 列表 ， 结 果 如 下 。 
ele 6 32 


beck 2 26 
joe 1 53 


1.24 使 用 itertools 




















受 一 些 函 数 式 编程 语言 如 Haskell 等 启发 ，itertools 包含 了 一 些 处 理 可 迭代 对 象 的 
函数 ， 它 们 能 高 效 地 使 用 内 存 ， 运 行 速度 很 快 。 


1.24.1 准备 工作 


itertools 包含 了 大 量 的 函数 ， 我 们 对 其 中 的 一 部 分 进行 演示 来 了 解 它们 。 本 节 最 
后 部 分 提供 了 这 些 函数 的 全 列表 。 


1.24.2 ”操作 方法 


我 们 通过 一 些 Python 代码 示例 来 演示 itertools 的 使 用 方法 。 



































去 



































# 加 载 库 文件 


from itertools import chain,compress,combinations,count,izip,islice 
































1.24 使 用 itertools 


# 工 . 链 的 示例 ， 不 同 的 可 迭代 对 象 能 被 组 合 在 一 起 

a = [1,2,3 

pgri iat t ver] 

print list(chain(a,b)) 4 prints [1, 2, 3, 'a', 'b', 'c'] 

# 2. 压 缩 示 例 ， 一 个 数据 第 选 器 ， EIEOAGHOUE 1 个 对 象 中 的 数据 进行 7 fii 3 
a = [1,2,3 

b = [1,0,1 

print list (compress (arb)) # prints [1, 3] 

# 3. Sene 定 的 列表 ， 返 回 长 度 为 n 的 子 序列 

a = [1,2,3,4] 

print list (combinations (a,2)) # prints [(1, 2), (1, 3), (1, 4), 


3), (2, 4), (3, 4)] 

# 4. 给 定 一 个 起 始 整数 ， 产 生 连 
a = range(5) 

b- 


for element in b: 








izip(count(1),a) 


print element 


# 5. 从 一 
它 从 输入 的 迭代 器 中 返回 间隔 的 各 个 元 素 

a = range (100) 

b = islice(a,0,100,2) 

print list (b) 











1.2443 工作 原理 












































第 1 步 很 直观 ， 用 chain ( 
chain () 函数 并 不 会 被 真正 实现 直到 被 调用 。 请 看 下 面 


>>> chain(a,b) 
<itertools.chain object at 0x060DD0D0» 




















) 函数 将 两 个 可 过 代 对 象 组 合 在 一 


的 命令 。 

















调用 chain (a,b) 会 返 





>>> list(chain(a,b)) 


[1, 27 By 'a', "bt, 5t] 














XN | compress 函数 ， 在 本 例 : 























一 个 链 对 象 ， 当 我 们 执行 下 


而 的 命 














令 时 ， 真 正 的 输 昌 











LZ 
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个 可 和 迭代 对 象 中 根据 索引 参数 筛选 生成 另 一 个 可 和 迭代 对 象 ， 假 定 我 们 所 需 的 是 一 个 迭代 器 ， 





起 ， 值 得 注意 的 是 ， 





结果 如 下 。 


，a 里 的 元 素 是 否 被 选中 ， 依 赖 于 b 里 对 
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应 位 置 的 元 素 值 。 如 你 所 见 ，b 里 的 第 2 个 值 为 0， 因 此 a 里 的 第 2 个 值 没 有 被 选中 。 
第 3 步 是 简单 的 数学 组 合 ， 输 入 列表 a， 产 生 了 所 有 两 个 元 素 的 组 合 。 

第 4 步 讲 解 了 counter 对 象 ， 给 定 一 个 起 始 值 ， 它 可 以 产生 无 限 的 连续 数字 序列 。 
运行 上 面 的 代码 ， 结 果 如 下 。 


















































这 里 我 们 还 使 用 了 izip 函数 (zip M izip 函数 在 前 面 章节 已 经 介绍 过 了 ), 输出 结 
果 是 一 个 元 组 ， 第 1 个 元 素 由 counter 提供 ， 第 2 个 则 由 输入 的 列表 a 提供 。 































































































5 步 解 释 了 islice 操作 的 细节 ，islice 和 前 面 章节 介绍 过 的 slice (切片 ) 相 
同 ， 但 是 它 使 用 内 存 更 高 效 ， 在 没有 调用 之 前 不 会 被 实现 。 
关于 itertools 的 函数 全 列表 ， 请 参见 : https://docs.python.org/2/library/itertools.html « 
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在 这 一 章 











里 ， 我 们 将 探讨 以 下 主题 。 








。 使 用 NumPy Æ 











。 使 用 matplotlib 进行 绘图 




















e 使 用 scikit-learn 进行 机 器 学 习 











2.1 简介 
本 章 我 们 将 介绍 Python 环境 ， 本 书 的 大 部 分 内 容 都 会 涉及 它 。 我 们 先 从 NumPy 开始 ， 





这 是 一 个 用 来 



































高 效 地 处 理 数 组 和 和 矩阵 的 Python 库 ， 它 也 是 本 书 会 用 到 的 大 多 数 库 的 基础 。 








a 























然后 我 们 会 介 


绍 名 为 matplotlib 的 绘图 库 。 最 后 介绍 机 器 学 习 库 scikit-learn. 

















2.2 使 用 NumPy FE 























Python 中 ，NumPy 提供 了 一 条 高 效 处 理 超 大 数组 的 途径 。 大 多 数 Python 科学 计算 库 


中 都 在 内 部 使 


节 介绍 它 。 




































































] NumPy 处 理 数 组 和 矩阵 操作 。 在 本 书 中 ，NumPy 被 广泛 应 用 ， 我 们 在 本 


2.2.1 准备 工作 


我 们 先 写 
NumPy 数组 ， 









































一 系列 语句 来 操作 数组 和 和 矩 阵 ， 学 习 如 何 使 用 NumPy。 目 的 是 让 您 习惯 使 用 
它 也 是 本 书 大 多 数 内 容 的 基础 。 








— 
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2.2.2 


操作 方法 


我 们 先 创建 一 些 简单 的 矩阵 和 数组 。 








a 








Recipe la.py 
导入 NumPy 库 ， 命 名 为 np 





import numpy as np 


创建 数组 

list = [1,2,3] 

array = np.array(a list) 
指定 数据 类 型 


array = np.array(a list,dtype-float) 


创建 矩阵 


.listoflist - [[1,2,3],1[5,6,71,1[8,9,10]] 


a matrix = np.matrix(a listoflist,dtype-float) 


现 


# 
# 
de 


di 


换 
# 


# 换 一 种 方式 创建 数组 


# 
eB 
di 


# 
QÉ 
di 
# 



































在 我 们 可 以 写 一 个 简单 方 
Recipe lb.py 
一 个 用 来 检测 给 定 的 NumPy 对 和 象 的 小 函数 





更 的 函数 来 处 理 NumPy 对 象 。 





f display shape(a): 
print 
print a 
print 
print "Nuber of elements in a = $£d"£(a.size) 
print "Number of dimensions in a = $d"$(a.ndim) 


print "Rows and Columns in a ",a.shape 





print 





Splay shape(a matrix) 


种 方式 来 创建 数组 。 


Recipe 1c.py 





Tar 








1. 使 用 np.arange 来 创建 NumPy 数组 
eated array = np.arange(1,10,dtype-float) 
Splay shape (created array) 





2. 使 用 np.1inspace 来 创建 NumPy 数组 
eated array = np.linspace(1,10) 
Splay shape (created array) 
3. 使 用 np.logspace 来 创建 NumPy 数组 

















22 ”使 用 NumPy 库 


created array = np.logspace(1,10,base-10.0) 

display shape (created array) 

# 4. 在 创建 数组 时 指定 arange 的 步 长 ， 这 是 它 与 np.linspace 不 同 的 地 方 
created array = np.arange(1,10,2,dtype-int) 

display shape(created array) 


现在 我 们 来 看 如 何 创建 一 些 特殊 的 和 矩阵。 


Recipe ld.py 
创建 一 个 所 有 元 素 都 为 1 的 矩阵 


ones matrix = np.ones((3,3)) 


























display shape(ones matrix) 
创建 一 个 所 有 元 素 都 为 0 的 矩阵 


zeros matrix = np.zeros((3,3)) 





display shape (zeros matrix) 


# 鉴别 矩阵 
# k 参数 控制 1 的 索引 

# if k =0, (0,0),(1,1,),(2,2) cell values 
# 被 设置 为 1， 在 一 个 3 x 3 的 和 矩阵 中 
identity matrix = np.eye (N=3,M=3, k=0) 

















display shape (identity matrix) 





identity matrix = np.eye (N=3, k=1) 








display shape (identity matrix) 


了 解 了 创建 数组 和 矩阵 的 知识 ， 我 们 再 看 一 些 整 形 操作 。 


f Recipe le.py 
# 数组 的 整形 


a matrix = np.arange (9) .reshape (3,3) 























display shape (a matrix) 


display shape (back array) 


接着 来 看 一 些 和 矩阵 的 操作 。 


f Recipe lf.py 
# 矩阵 的 操作 


a matrix = np.arange (9) .reshape (3,3) 























b matrix = np.arange (9) .reshape (3,3) 


rin matrix, row sum",f matrix.sum(axis- 
t E ie j T ot t 1 
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最 后 ， 我 们 来 看 一 些 转 置 、 复 制 和 网 格 操作 。 


#Recipe_1g.py 
# 转 置 元 素 
display shape(f matrix[::-1]) 











zz — zz.flatten() 
































我 们 再 看 看 NumPy 库 里 的 一 些 随机 数 生成 例 程 。 


#Recipe_1h.py 
# 随机 数 


general random numbers = np.random.randint(1,100, size-10) 

















print general random numbers 


uniform rnd numbers = np.random.normal(10c-20.2,scale-0.2,size-(3,3)) 


2.233 工作 原理 


我 们 先 从 导入 NumPy 库 开 始 。 
# 导入 NumPy 库 ， 命 名 为 np 


import numpy as np 


























来 看 看 用 NumPy 生成 数组 的 多 种 方式 。 


# 数组 
= | 

an array = np.array (a list) 
# 指定 数据 类 型 


an array = np.array(a list,dtype-float) 









































一 个 数组 可 以 基于 列表 创建 , 在 前 面 的 示例 中 , 我 们 声明 了 一 个 具有 3 个 元 素 的 列表 ， 
然后 用 np.array () 将 这 个 列表 转 为 了 NumPy 一 维 数 组 。 如 上 面 代 码 的 最 后 一 行 所 示 ， 
我 们 也 可 以 指定 数据 的 类 型 。 

了 解 完 数组 ， 再 来 看 看 矩阵 。 

# 矩阵 


a listoflist = [[1,2,3],[5,6,7],[8,9,10]] 
a matrix = np.matrix(a listoflist,dtype-float) 
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我 们 从 listoflist 里 创建 了 一 个 矩阵 ， 同 样 地 ， 我 们 指定 了 数据 的 类 型 。 
在 继续 之 前 ， 我 们 得 先 定义 display shape 函数 ， 这 个 函数 我 们 接 下 来 会 经 常用 到 。 











def display shape (a): 


print 
print 
print 
print 
print 
print 
print 


所 有 的 NumPy 对 象 都 有 以 下 3 个 属 1 


a 
"Nuber of elements in a = $d"$(a.size) 
"Number of dimensions in a = $d"£(a.ndim) 
"Rows and Columns in a ",a.shape 


D 





e size: 给 定 的 NumPy 对 象 里 的 元 素 个 数 。 
e ndim: 维 数 。 
。 shape: 返回 一 个 包含 了 NumPy 对 象 各 个 维 的 长 度 的 元 组 。 


除了 打印 输出 原始 的 元 素 ， 这 个 函数 打印 输出 上 述 的 3 个 属性 ， 我 们 调用 这 个 函数 来 
处 理 我 们 之 前 创建 的 矩阵 。 


display shape (a matrix) 




















p 






















































































[[ 1. 2. 3.] 

如 图 2-1 所 示 ， 这 个 矩阵 有 9 个 元 素 ， 两 个 维度 ,最 后 ， | 上 9 e 
我 们 还 能 在 shape 参数 里 看 到 维 数 和 每 一 维 的 元 素 个 数 。 在 “| mber of elements ina=9 ， 
本 例 中 ， 和 矩阵 有 3 行 3 列 。 Rows and Columns in a (3, 3) 

再 看 另 一 种 创建 数组 的 方法 。 图 2-1 








created array = np.arange(1,10,dtype-float) 


display shape (created array) 











NumPy 的 arange 函数 返回 指定 间隔 的 均匀 隔 开 的 数值 ， 本 例 中 ， 我 们 所 需 的 是 从 1 
到 10 均匀 分 布 的 数值 。 访 问 以 下 URL 可 以 获取 更 多 关于 arange 的 资料 。 





http://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html - 


# 创建 数组 的 另 一 种 替代 办 法 


created array = np.linspace(1,10) 


display shape (created array) 
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NumPy 的 linspace 和 arange 类 似 ， 差 别 在 于 我 们 需要 给 出 样 例 的 数量 值 。 使 用 linspace， 









































我 们 知道 在 给 定 的 范围 里 有 多 少 个 元 素 。 默 认 情况 下 ， 它 返回 50 个 元 素 。 而 使 用 arange， 
我 们 还 要 指定 步 长 。 


created array = np.logspace(1,10,base-10.0) 
display shape (created array) 


NumPy 给 你 提供 了 一 些 创 建 特殊 数组 的 函数 。 


ones matrix = np.ones((3,3)) 
display shape (ones matrix) 


# 创建 一 个 所 有 元 素 均 为 0 的 矩阵 
zeros matrix = np.zeros((3,3)) 


display shape (zeros matrix) 


ones () 和 zero () 函数 分 别 用 来 创建 全 由 1 和 0 填充 的 矩阵 ， 如 图 2-2 所 示 。 
位 矩阵 的 创建 方式 如 下 : 

















Im- 








identity matrix = np.eye (N=3,M=3, k=0) 
display_shape (identity_matrix) 


参数 k 控制 了 1 的 起 始 索引 值 ， 输 出 结果 如 图 2-3 所 示 。 








identity matrix = np.eye(N-3,k-1) 
display shape(identity matrix) 





HI. 1. .] 
从 X 5] 
[31 1. 1.1] 
Nuber of elements in a = 9 Nuber of elements in a = 9 
Number of dimensions in a = 2 Number of dimensions in a = 2 
Rows and Columns in a (3, 3) Rows and Columns in a (3, 3) 
[[ e. e. e.] 
[e. e. e.] 
[e. e. e.]] 
Nuber of elements ina = 9 Nuber of elements in a = 9 

a a P Number of dimensions in a = 2 
Number of dimensions in a = 2 Rows and Columns in a (3, 3) 
Rows and Columns in a (3, 3) ii 




















图 2-2 图 2-3 
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reshape 函数 可 以 控制 数组 的 形态 。 


# 数组 转换 形态 


a matrix = np.arange (9) .reshape (3,3) 





display shape (a matrix) 


通过 传递 参数 -1,， 我 们 可 以 将 数组 转化 为 我 们 所 需要 的 维 数 ， 输 入 结果 如 图 2-4 所 示 。 
# 参数 -1 可 以 将 矩阵 转 为 所 需 的 维 数 


back to array = a matrix.reshape(-1) 
display shape (back to array) 


ravel 和 flatten 函数 可 以 用 来 将 和 矩阵 转化 为 一 维 的 数组 ， 如 图 2-5 所 示 。 





a matrix = np.arange(9).reshape(3,3) 
back array = np.ravel(a matrix) 
display shape (back array) 


a matrix = np.arange(9).reshape(3,3) 


back array = a matrix.flatten() 
display shape (back array) 


[P1234 5 6 7 8] 


] 
Nuber of elements in a = 9 
Nuber of elements in a = 9 Number of dimensions ina = 1 
Number of dimensions ina = 2 Rows and Columns in a (9,) 


Rows and Columns in a (3, 3) 


[012345678] 
[012345678] 
Nuber of elements in a = 9 


Nuber of elements in a = 9 E = 
Number of dimensions in a = 1 


Number of dimensions ina - 1 














Rows and Columns in a (9,) Rows and Columns in a (9,) 
图 2-4 图 2-5 





我 们 再 看 一 些 和 矩阵 操作 ， 如 两 矩阵 相 加 。 








c matrix = a matrix + b matrix 


再 看 看 矩阵 对 应 元 素 相 乘 。 











d matrix = a matrix * b matrix 





下 面 是 矩阵 的 乘法 操作 。 
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e matrix = np.dot(a matrix,b matrix) 


最 后 ， 是 矩阵 的 转 置 。 


f matrix = e matrix.T 





min 和 max 函数 可 以 用 来 找 出 矩阵 中 最 小 和 最 大 的 元 素 ，sum RA H RXTE BERT 
或 列 进行 求 和 ， 如 图 2-6 所 示 。 


print 
print "f matrix,minimum = 2d"$(f matrix.min( 
print "f matrix,maximum = £2d"$(f matrix.max( 


)) 
)) 
print "f matrix, col sum",f matrix.sum(axis-0) 
1) 


print "f matrix, row sum",f matrix.sum(axis- 





f matrix,minimum - 15 
f matrix,maximum - 111 
f matrix, col sum [ 54 162 270] 
f matrix, row sum [126 162 198] 











图 2-6 























采用 下 面 的 方法 将 矩阵 的 元 素 进 行 求 逆 运 算 。 


# 对 元 素 进 行 逆 运 算 
display shape(f matrix[::-1]) 





copy 函数 可 以 复制 一 个 矩阵 ， 方 法 如 下 。 


# Python 中 所 有 元 素 都 能 用 来 引用 
# 如 果 需 要 复制 ， 可 以 使 用 copy 命令 
f copy = f matrix.copy() 


E 














最 后 再 看 一 下 mgrid 函数 。 


# Grid 命令 

XX,yy,ZZz = np.mgrid[0:3,0:3,0:3] 
xx = xx.flatten() 

yy = yy.flatten() 

zz — zz.flatten() 


mgrid 函数 用 来 查找 m ?EXBIE HP BAR, EARRA, EESE, TERE— HE 
中 ， 数 值 的 范围 从 0 到 3。 我 们 将 xx. yy 和 zz 打印 输出 出 来 以 帮助 理解 ， 如 图 2-7 Bron. 
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我 们 来 看 每 个 数组 的 第 1 个 元 素 ， 在 本 例 的 三 维和 矩阵 空间 中 ，[0,0,0] 是 第 1 个 坐标 ， 


所 有 3 个 数组 中 的 第 2 个 元 素 [0,0,1] 是 矩阵 空间 里 的 男 一 个 点 。 据 此 ， 使 用 mgrid 函数 ， 
我 们 能 占 满 三 维 坐标 系统 里 的 所 有 点 。 




































































[0 00000000111111111222222222] 

[((060111222000111222000 11 12 2 2] 

[(12012012012012012012 0 1 2 0 1 2] 
2-7 





NumPy 提供 了 一 个 random 模块 给 我 们 ， 可 以 用 来 定义 产生 随机 数 的 规则 。 我 们 来 看 
产生 随机 数 的 示例 。 

# 随机 数 

general random numbers = np.random.randint(1,100, size-10) 

print general random numbers 


使 用 random 模块 中 的 randint 函数 ， 我 们 可 以 生成 随机 整数 。 我 们 需要 传递 start、 
end 和 size 等 3 个 参数 。 本 例 中， 我们 的 起 始 值 为 1, 结 — 
柬 值 为 100， 步 长 为 10。 我 们 需要 介 于 1 到 100 的 10 个 LE 0 Pom met n 


随机 整数 ， 我 们 得 到 的 返回 结果 如 图 2-8 所 示 。 图 2-8 


我 们 也 可 以 产生 其 他 分 布 的 随机 数 , 来 看 看 使 用 更 好 正 态 分 布 包 产生 10 个 随机 数 
的 示例 。 



































II 








uniform rnd numbers = np.random.normal(loc-0.2,scale-0.2,size-10) 


print uniform rnd numbers 











我 们 使 用 normal 包 的 normal 函数 来 生成 随机 数 。normal 包 里 的 loc 和 scale 
参数 分 别 指定 了 均值 和 标准 差 两 个 参数 ， 最 后 ，size 参数 决定 了 样本 的 数量 。 


通过 传递 一 个 行 或 列 的 元 组 ， 我 们 也 可 以 产生 一 个 随机 的 矩阵 ， 示 例如 下 。 




















uniform rnd numbers = np.random.normal(loc-0.2,scale-0.2,size-(3,3)) 


上 面 的 示例 产生 了 3x3 的 和 矩阵， 输出 结果 如 图 2-9 所 示 。 











>>> print uniform rnd numbers 

[ 9.29461598 -0.12032348 -0.19104886 0.16927785 -0.01208029 20.2303851 
0.2124355  0.20098306 20.05638245 20.06696319] 

>>> 
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224 更 多 内 容 
下 面 的 链接 提供 了 一 些 优秀 的 NumPy 文档 ， 请 参见 : http://www.numpy.org/。 
2.2.5 参考 资料 


(Analyzing Data -Explore & Wrangle》 的 第 3 章 中 “使 用 matplotlib 进行 绘画 的 诀 穿 ” 
部 分 有 相关 介绍 。 
(Analyzing Data -Explore & Wrangle》 的 第 3 章 中 “使 用 Scikit Learn 进行 机 器 学 习 的 
诀 守 ”部 分 有 相关 介绍 。 






















































































2.3 ”使 用 matplotlib 进行 绘画 











Matplotlib 是 Python 提供 的 一 个 二 维 绘图 库 ， 所 有 类 型 的 平面 图 ， 包 括 直 方 图 、 散 点 
图 、 折 线 图 、 点 图 、 热 图 以 及 其 他 各 种 类 型 ， 都 能 由 Python 制作 出 来 。 在 本 书 中 ， 我 们 将 
采用 matplotlib 的 pyplot 接口 实现 所 有 的 可 视 化 需求 。 


2.3.1 ”准备 工作 
本 节 中 ， 我 们 会 介绍 使 用 pyplot 的 基础 绘图 框架 ，3 
化 需求 。 


本 书 采用 的 是 matplotlib1.3.1， 你 可 以 在 命令 行 下 调用 _version 属性 来 检查 版 本 ， 如 
图 2-10 所 示 。 




































































j 它 来 完成 本 书 中 的 所 有 可 视 








— 















































>>> matplotlib. version __ 
1.3.3" 











图 2-10 








2.3.2 ”操作 方法 


我 们 通过 示例 来 学 习 如 何 用 matplotlib 绘制 一 些 简 单 的 图 





























NS 
o 














#Recipe 2a.py 
import numpy as np 
import matplotlib.pyplot as plt 
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def simple line plot(x,y,figure no): 
plt.figure(figure no) 

plt.plot (x,y) 

plt.xlabel('x values') 
plt.ylabel('y values") 
plt.title('Simple Line') 


def simple dots (x,y,figure no): 
plt.figure(figure no) 
plt.plot (x,y,'or') 
plt.xlabel('x values') 
plt.ylabel('y values") 











plt.title('Simple Dots') 





def simple scatter (x,y,figure no): 
lt.figure(figure no) 
lt.scatter (x, y) 

lt.xlabel('x values!) 


lt.ylabel('y values') 


G '0'0'o'o 0 


lt.title('Simple scatter') 
def scatter with color(x,y,labels,figure no): 
lt.figure(figure no) 
lt.scatter(x,y,c-labels) 

lt.xlabel('x values!) 

lt.ylabel('y values!) 

lt.title('Scatter with color!) 


Oo '0'0'o'o 0 
t 


if name == " main ": 














plt.close('all') 
ox. y 样 例 数据 生成 折线 图 和 简单 的 点 区 


x = np.arange(1,100,dtype-float) 


























y = np.array([np.power(xx,2) for xx in x]) 





figure no-1 

simple line plot(x,y,figure no) 
figure no-t-1 

simple dots (x,y,figure no) 

















Fox. y PARIE AE BC LE 
x = np.random.uniform(size-100) 


y = np.random.uniform(size-100) 
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figure_no+=1 
simple scatter(x,y,figure no) 
figure not+=1 


label = np.random.randint (2,size-100) 





Scatter with color(x,y,label,figure no) 
plt.show() 


























接 下 来 我 们 要 探讨 一 些 进 阶 的 主题 ， 包 括 生 成 热 图 以 及 给 x 和 y 轴 添 加 标签 。 


























# Recipe 2b.py 

import numpy as np 

import matplotlib.pyplot as plt 

def x y axis labeling(x,y,x labels,y labels,figure no): 
plt.figure(figure no) 

plt.plot(x,y,'-*r') 

plt.margins(0.2) 

plt.xticks(x,x labels,rotation-'vertical'!') 
plt.yticks(y,y labels,) 


def plot heat map (x,figure no): 











plt.figure(figure no) 
plt.pcolor (x) 
plt.colorbar() 

if name == " main ": 
plt.close('all') 


x = np.array (range (1,6)) 

y = np.array (range (100,600,100) ) 

x label = ['element 1','element 2','element 3','element 
4','element 5'] 


y label = ['weightl','weight2','weight3','weight4', 'weight5'] 





x y axis labeling (x,y,x label,y label,1) 


x = np.random.normal(loc-20.5,scale-0.2,size-(10,10)) 
plot heat map (x, 2) 


plt.show() 


23 ”工作 原理 


我 们 先 从 导入 需要 的 模块 开始 ， 使 用 pyplot 前 ， 必 须 先导 入 NumPy 库 。 














D 











import numpy as np 








import matplotlib.pyplot as plt 





2.3 ”使 用 matplotlib 进行 绘画 
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我 们 从 下 面 代码 的 main 函数 开始 ， 之 前 运行 的 程序 可 能 已 经 绘制 了 一 些 图 形 ， 先 把 
。 同 时 ， 我 们 的 程序 可 能 也 需要 更 多 的 绘图 资源 。 


它们 全 部 关闭 是 一 个 好 习惯 





plt.close('all') 


fox. 


我 们 在 x 和 y 变量 中 生成 了 100 个 元 素 , y 是 x 变量 























So 


rH 


接着 ， 为 了 演示 如 何人 


和 人 





y 样 例 数据 生成 折线 




















图 

















figure no-1 


sim 


当 程 序 中 有 多 个 图 




















们 接着 


figu 





pyplot， 我 们 得 先 月 
和 简单 的 点 图 


np.array([np.power (xx,2) 




















np.arange (1,100,dtype=float) 


for xx in x]) 











ple line plot (x,y,figure no) 














形 的 时 候 ， 最 好 用 








def 


如 你 所 见 ， 我 们 开始 月 


再 看 si 











mple line plot 函数 。 


simple line plot(x,y,figure no): 


plt.figure(figure no) 


plt.plot (x,y) 


plt.xlabel('x values!) 


plt.ylabel('y values!) 





plt.title('Sim 









































ple Line') 


H pyplot 的 figure 函数 编号 
re no 变量 进行 传递 。 然 后 ， 给 定 x 和 y 的 值 就 可 以 轻松 地 i 





figure no 变量 给 每 














H NumPy 生成 一 些 数 据 。 


的 平方 数 , 然后 绘制 一 条 简单 的 折 











> 





























命名 ， 可 以 让 图 

















xlable 和 ylabel 函数 给 x 轴 和 > 轴 
8 名 ， 这 意味 着 我 们 的 第 1 个 折线 图 快要 绘制 完 
























































AX H 




















E 绘 出 的 图 形 里 ，x 轴 











2-11 这 样 。 
是 x 的 值 ，y 轴 是 x 的 平方 值 。 





标示 图 形 ， 我 们 在 main 函数 
调用 plot 函数 。 分 别 
EEMS. wa RIIE 
成 了 。 但 是 图 形 不 会 自动 显示 











=Œ 







































































过 调用 show () 函数 才能 显示 。 在 本 例 中 ， 我 们 调用 
示 ， 得 到 的 图 看 起 来 应 该 是 图 














show () 函数 来 将 所 有 的 图 











图 形 设 置 一 个 编号 。 我 


中 把 
可 以 
, 必 


形 一 

















我 们 绘制 了 一 张 简单 的 折线 图 , 我 们 可 以 看 到 优美 的 弧 线 , 因为 y 的 值 是 x 值 的 平方 。 























再 看 下 一 个 图 形 。 

















figure no+=1 


simple dots (x,y,figure no) 





68 第 2 章 Python 环境 


我 们 增加 了 图 形 的 编号 并 调用 了 simple dots UB AEK x RI y 的 值 用 


Simple Line 








x values 











图 2-11 
































线 的 形式 绘制 出 来 ， 来 看 看 simple_qots 函数 。 





def simple dots(x,y,figure no): 


Plt. 


figure (figure_no) 
.plot (x,y,'or') 
.xlabel('x values') 
.ylabel('y Values ' ) 
.title('Simple Dots') 





除了 下 面 这 行 ， 每 行 的 代码 和 之 前 的 函数 都 是 相同 的 。 


plt.plot (x,y,'or') 











zy 

















再 看 下 


个 图 形 。 

















3i 
> 
Pami 




















这 个 “or” 参 数 说 明 我 们 需要 的 是 点 〈o)， 这 个 点 的 颜色 是 红色 (r)。 上 面 的 命令 绘 
出 的 图 形 如 图 2-12 所 示 。 


我 们 这 次 要 绘制 的 是 散 点 图 ， 我 们 用 NumPy 生成 一 些 数据 。 


x 


x = np. 


np. 


、Y 样 例 数据 生成 散 点 图 























random.uniform(size=100) 
random.uniform(size=100) 














34 CJ 





均匀 分 布 生成 了 100 个 样 例 数据 点 ， 现 在 我 们 调 / 











] simple scatter IZ 











来 生成 散 点 图 。 
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图 2-12 


figure no*t-1 
simple scatter (x,y,figure no) 


simple scatter 函数 里 的 每 一 行 都 和 前 面 的 绘图 方法 里 一 样 ， 除 了 以 下 这 行 。 


plt.scatter (x,y) 





我 们 调用 了 scatter 函数 而 不 是 pyplot 中 的 plot 函数 , 绘制 出 来 的 图 形 如 图 2-13 所 示 。 





图 2-13 

















接 下 来 ， 我 们 要 随机 地 给 点 加 入 


$ 
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我 们 来 看 最 终 想 要 的 散 点 图 : 每 个 点 根据 它 所 属 的 类 标签 被 标 上 了 颜色 。 
figure no-t-1 
label = np.random.randint (2,size-100) 
Scatter with color(x,y,label,figure no) 
为 了 保持 图 表 的 可 读 性 ， 我 们 继续 增加 图 形 的 数量 
一 些 标签 ， 内 容 是 0 或 者 1。 最 后 再 月 


scatter with color 函数 。 


这 个 函数 和 之 前 的 scatter PRI 


plt.scatter (x,y,c-labe 


我 们 将 标签 的 值 传 给 


c 参数 ， 就 
中 ， 标 签 为 0 的 点 和 标签 为 1 的 点 颜色 是 不 一 样 


数 的 区 别 如 下 所 示 。 


ls) 





EI 


是 颜 每 个 


的 ， 如 














HX E x. y 和 标签 的 变量 





作为 参数 来 调 | 








J 


标签 对 应 着 一 个 唯 
图 2-14 所 示 。 


一 的 颜色 。 本 例 























Scatter with color 
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x values 
图 2-14 
接 下 来 我 们 再 看 热 图 以 及 轴 标 签 。 
我 们 仍然 从 main 函数 开始 。 
plt.close('all') 
x = np.array (range (1,6)) 
y = np.array (range (100, 600,100)) 
x label = ['element 1','element 2','element 3','element\ 


4','element 5 


1] 
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y label = ['weightl','weight2','weight3','weight4', 'weight5'] 
x y axis labeling (x,y,x label,y label,1) 





记得 保持 良好 的 习惯 , 调用 close 函数 把 之 前 的 那些 图 先 全 部 关闭 。 然 后 我 们 生成 一 
些 数据 : x 是 一 个 有 5 个 元 素 的 数组 ， 元 素 值 从 1 到 5; y 也 是 一 个 5 个 元 素 的 数组 ， 元 素 
值 从 100 到 500。 我 们 定义 两 个 列表 x label 和 y label 作为 图 的 标签 。 最 后 ， 我 们 调 
用 x y axis labeling 函数 来 演示 如 何 给 x 和 y 轴 添 上 标签 。 


请 看 下 面 的 函数 。 












































def x y axis labeling(x,y,x labels,y labels,figure no): 
plt.figure(figure no) 
plt.plot(x,y,'*r') 
plt.margins(0.2) 
plt.xticks (x,x labels,rotation-'vertical') 
plt.yticks(y,y labels,) 




















我 们 将 采用 pyplot 的 dot 函数 来 绘制 一 张 简单 的 点 图 。 这 次 的 示例 中 ， 我 们 不 再 采用 
“0”， 而 是 使 用 “+” 来 表示 点 。 因 此 ， 我 们 指定 的 参数 是 “+r”，“r” 代 表 红 色 。 

在 后 面 的 两 行 里 ， 我 们 还 要 指定 x Hy 轴 的 标签 类 型 。 我 们 使 用 xticks 函数 传递 x 
的 值 和 它们 的 标签 。 此 外 ， 我 们 还 要 将 文本 进行 垂直 翻转 以 避免 相互 遮挡 。y 轴 的 处 理 过 
程 也 是 完全 类 型 的 。 请 看 图 2-15。 
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我 们 来 看 如 何 用 pyplot 生成 热 图 。 





x = np.random.normal(loc-0.5,scale-0.2,size-(10,10)) 


plot heat map (x, 2) 


绘制 热 图 需要 准备 一 些 数据 。 本 例 中 ， 我 们 / 




















] 正 态 分 布 产生 一 个 10x10 4 








E 阵 的 数据 ， 


设 定 loc 变量 为 0.5 作为 均值 ， 设 定 scale 变量 为 0.2 作为 标准 差 ， 然 后 将 矩阵 传 给 

















plot_heat_map。 第 2 个 参数 是 图 


def plot heat map (x, figure 
plt.figure (figure no) 
plt.pcolor (x) 
plt.colorbar() 




















我 们 调用 pcolor 函数 来 创建 热 图 ， 第 2 行 里 调用 的 colorbar KAHAKI 


的 颜色 范围 ， 输 出 如 图 2-16 所 示 。 


形 的 编号。 











no): 





10 






4 


2 


0 





0.8 
0.7 
0.6 
0.5 
04 
0.3 
0.2 
01 
0 2 4 6 8 10 





23.4 EZAR 











要 了 解 更 多 关于 matplotlib 的 信息 ， 以 下 地 址 提供 了 大 量 相关 文档 ， 








Kl 2-16 





























http://matplotlib.org/fag/usage faq.html. 
以 下 地 址 是 一 个 pyplot 的 优秀 教程 ， 请 参见 : 








EA 


3€ 














见 : 





判 渐变 色 
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http://matplotlib.org/users/pyplot tutorial.html. 
Matplotlib 也 提供 了 优秀 的 3D 绘图 能 力 ， 详 情 请 














Y 


见 : 








http:Wmatplotlib.org/mpl toolkits/mplot3d/tutorial.html 。 


matplotlib 里 的 pylab 模块 联合 使 用 了 pyplot 和 NumPy 命名 空间 ， 我 们 也 可 以 使 用 pylab 
来 绘制 本 节 中 的 各 种 图 


2.4 使 用 scikit-learn 进行 机 器 学 习 









































NS 
o 














scikit-learn 是 Python 中 的 一 个 全 能 的 机 器 学 习 库 ， 我 们 在 本 书 中 会 大 量 使 用 它 。 我 
们 使 用 的 版 本 为 0.15.2。 你 可 以 在 命令 行 里 调用 version 属性 来 检查 版 本 ， 如 图 2-17 
所 示 。 


















































>>> sklearn. version 
"8.15.2" 
>> | 








PS 








2-17 





2.4.1 准备 工作 


本 节 里 ， 我 们 会 演示 一 些 scikit-learn 包 的 功能 ， 学 习 它 的 一 些 API 架构 ， 为 后 
续 章节 的 学 习 打 下 基础 。 


2.4.2 ”操作 方法 


scikit-learn 提供 了 一 个 内 置 数据 集 ， 我 们 看 看 如 何 访问 和 使 用 它 。 
























































#Recipe 3a.py 
from sklearn.datasets import load iris,load boston,make classification 


make circles, make moons 





# Iris 数据 集 

data = load iris() 

x = data['data'] 

y = data['target'] 

y labels = data['target names'] 





x labels = data['feature names'] 
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print 

print x.shape 
print y.shape 
print x labels 
print y labels 


# Boston 数据 集 

data = load boston() 

x = data['data'] 

y = data['target'] 

x labels = data['feature names'] 
print 
print x.shape 
print y.shape 
print x labels 


# 制作 一 些 分 类 数据 集 


x,y = make classification(n samples-50,n features-5, n classes=2) 





print 
print x.shape 
print y.shape 


print x[1,:] 


print y[1] 





# 一 些 非 线性 数据 集 

x,y = make _ circles () 

import numpy as np 

import matplotlib.pyplot as plt 
plt.close('all') 

plt.figure (1) 
plt.scatter(x[:,0],x[:,1],c-y) 


x,y = make moons () 

import numpy as np 

import matplotlib.pyplot as plt 
plt.figure(2) 
plt.scatter(x[:,0],x[:,1],c-y) 


plt.show() 




















我 们 来 看 看 如 何 调用 scikit-learn 里 的 这 些 机 器 学 习 函 数 。 
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#Recipe 3b.py 
import numpy as np 
from sklearn.preprocessing import PolynomialFeatures 


# 数据 预 处 理 








x = np.asmatrix([[1,21,[2,411) 
poly = PolynomialFeatures (degr - 2) 
poly.fit(x) 


x poly = poly.transform(x) 


print "Original x variable shape",x.shape 
print x 

print 
print "Transformed x variables",x poly.shape 





print x poly 


# 另 一 种 写法 
x poly = poly.fit transform(x) 





from sklearn.tree import DecisionTreeClassifier 
from sklearn.datasets import load iris 


data = load iris() 
x = data['data'] 
y = data['target'] 


estimator = DecisionTreeClassifier() 
estimator.fit(x,y) 

predicted y = estimator.predict (x) 
predicted y prob = estimator.predict proba (x) 





predicted y lprob = estimator.predict log proba (x) 





from sklearn.pipeline import Pipeline 


poly = PolynomialFeatures (n=3) 


tree estimator = DecisionTreeClassifier() 
steps = [('poly',poly),('tree',tree estimator)] 
estimator = Pipeline(steps-steps) 





estimator.fit(x,y) 
predicted y = estimator.predict (x) 


2.3 ”工作 原理 
为 了 使 用 内 置 的 数据 集 ， 我 们 得 先 加 载 scikit-learn 库 ， 库 的 模块 里 包含 着 各 种 
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各 样 的 函数 。 


from sklearn.datasets import load iris,load boston,make classification 








第 1 个 数据 集 是 iris， 请 参见 以 下 地 址 来 获取 更 多 细节 信息 。 





https://en.wikipedia.org/wiki/Iris flower data set. 


这 是 一 个 由 Donald Fisher 先生 引入 的 分 类 问题 的 经 典 数据 集 。 











data = load iris() 

x — data['data'] 

y = data['target'] 

y labels = data['target names'] 
x labels = data['feature names'] 











我 们 调用 的 1oad iris 函数 返回 一 个 字典 。 使 用 合适 的 键 ， 可 以 从 这 个 字典 对 象 中 
查询 获取 到 自 变 器 x、 因 变量 y、 因 变量 名 、 各 个 特征 属性 名 等 信息 。 


我 们 将 这 些 信息 打印 出 来 看 看 它们 的 值 ， 结 果 如 图 2-18 Pros. 










































































print 

print x.shape 
print y.shape 
print x labels 
print y labels 





['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm) 


['setosa' 'versicolor' 'virginica'] 











图 2-18 











如 你 所 见 ， 预 测 器 里 有 150 个 实例 和 A 种 属性 ， 因 变量 有 150 个 实例 ， 每 个 预测 集合 
里 的 记录 都 有 一 个 类 别 标签 。 我 们 接着 打印 输出 属性 名 : 花瓣 、 花 苯 的 宽度 和 长 度 ， 以 及 
类 别 标签 。 在 后 续 章节 里 ， 我 们 还 会 多 次 使 用 这 个 数据 鲁 
我 们 接着 要 看 的 是 男 一 个 数据 集 : Boston 住房 数据 和 鲁 
# Boston 数据 集 
data = load boston() 


x = data['data'] 
y = data['target'] 























un 























A 


o 

















它 属 于 回归 问题 。 








` 
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x labels = data['feature names ' ] 





这 个 数据 集 的 加 载 过 程 和 iris 基本 一 样 ， 从 字典 的 各 个 键 也 可 以 查询 到 数据 的 各 个 组 
成 部 分 ， 包 括 预测 器 和 因 变 量 。 我 们 打印 输出 这 些 变量 来 看 一 下 ， 如 图 2-19 所 示 。 


























(506, 13) 

(ses, ) 

['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO' 
'B' 'LSTAT'] 





图 2-19 











如 你 所 见 ， 预 测 器 集合 里 有 506 个 实例 和 13 种 属性 ， 因 变量 有 506 个 条 目 。 最 后 ， 我 
们 也 打印 输出 属性 名 。 

scikit-learn 也 给 我 们 提供 了 一 些 函数 来 产生 随机 分 类 的 数据 集 ， 
的 属性 。 

# 产生 一 些 分 类 数据 集 


x,y = make classification(n samples=50,n features=5, n classes=2) 




















并 可 以 指定 一 些 需要 


Lid 











make classification 函数 用 来 产生 分 类 数据 集 。 本 例 中 ,我 们 指定 n_samples 
参数 生成 50 个 实例 , n features 参数 生成 5 个 属性 , n classes 参数 生成 两 个 类 集合 。 
请 看 这 个 函数 的 输出 ， 如 图 2-20 所 示 。 











print x.shape 
print y.shape 


print x[1,:] 
print y[1] 





(5e, 5) 

(56,) 

[ 1.09036697 -0.00209392 -1.85449661 -0.81583736 -0.3623406 ] 
1 








图 2-20 





如 你 所 见 ， 预 测 器 里 有 150 个 实例 和 5 种 属性 ， 因 变量 有 150 个 实例 ， 每 个 预测 集合 
里 的 记录 都 有 一 个 类 别 标签 。 

我 们 将 预测 器 集合 x 里 的 第 2 条 记录 打印 出 来 ， 你 会 看 到 这 是 一 个 五 维 的 向 量 , 与 5 
个 我 们 所 需 的 特征 相关 联 。 最 后 ， 我 们 把 因 变 量 y 也 打印 出 来 。 预 测 器 里 的 第 2 条 记录 的 
类 别 标签 是 1 
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scikit-learn 也 给 我 们 提供 了 一 些 函 数 来 产生 非 线性 关系 。 


# 一 些 非 线 性 数据 集 

x,y = make circles () 

import numpy as np 

import matplotlib.pyplot as 
plt.close('all') 
plt.figure(1) 


pilt 


plt.scatter(x[:,0],x[:,1],c-y) 





你 应 该 已 经 从 前 面 的 章节 中 了 解 了 pyplot， 现 在 通过 它 绘制 的 图 来 帮助 我 们 理解 非 线 





性 关系 。 


如 图 2-21 所 示 ， 我 们 的 分 类 结果 产 9 





E 了 两 个 同心 

















圆 。x 是 两 个 变量 的 数据 集 ， 变 





是 类 标签 。 这 两 个 同心 圆 说 明了 预测 器 里 两 个 变量 的 关系 是 非 线性 的 。 



































图 2- 














21 








scikit-learn 里 还 有 一 个 有 趣 的 函数 make moons 也 能 产生 非 线 性 关系 。 





x,y = make moons () 

import numpy as np 

import matplotlib.pyplot as 
plt.figure (2) 


prit 


plt.scatter(x[:,0],x[:,1],c-y) 


我 们 看 一 下 它 生 成 的 图 2-22 KH 








RAER T 


FE 关 系 。 
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新 月 图 形 说 明了 预测 器 集合 x 里 的 属性 之 间 的 关系 是 非 线性 的 。 


接 下 来 我 们 要 来 讨论 scikit-learn 的 API 架构 ， 使 用 API 架构 的 主要 优势 在 于 它 十 分 简 
洁 。 所 有 源 于 BaseEstimator 的 数据 模型 必须 严格 实现 fit M transform Kt. 我们 将 从 
一 些 示例 中 详细 了 人 解 。 


我 们 先 从 scikit-learn 的 预 处 理 模 块 开始 。 


























import numpy as np 


from sklearn.preprocessing import PolynomialFeatures 



































我 们 使 用 PolynomialFeatures 类 来 演示 使 用 scikit-learn 的 SDK 的 方便 快捷 之 处 。 要 了 
解 PolynomialFeatures 的 更 多 信息 ， 请 参见 : 








https://en.wikipedia.org/wiki/Polynomial. 
有 时 我 们 需要 往 预 测 器 变量 集合 中 增加 新 的 变量 ， 以 判断 模型 精度 是 否 提高 。 我 们 可 
以 将 已 有 特征 的 多 项 式 作 为 新 特 证 ，PolynomialFeatures 帮助 我 们 实现 这 一 目标 。 


# 数据 预 处 理 
x = np.asmatrix([[1,2],[2,4]]) 














E 





























首先 ， 我 们 要 创建 一 个 数据 集 。 本 例 中 ， 数 据 集 有 两 个 实例 和 两 个 属性 。 


poly = PolynomialFeatures (degree = 2) 
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然后 ， 我 们 将 采用 所 需 的 多 项 式 阶 数 来 实例 化 PolynomialFeatures 类 。 本 例 中 ， 阶 
数 为 2。 





poly.fit (x) 
x poly = poly.transform(x) 























接着 要 介绍 的 是 fit 和 transform 函数 。fit 函数 用 来 在 数据 转换 时 做 必需 的 计算 。 本 例 
中 它 是 多 余 的， 不 过 在 本 节 后 面部 分 我 们 会 遇 到 一 些 如 何 使 用 它 的 示例 。 


transform 函数 接收 输入 数据 ， 并 基于 fit 函数 的 计算 结果 将 输入 数据 进行 转换 。 
# 换 一 种 方式 


x poly = poly.fit transform(x) 
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本 例 还 有 另外 一 种 方式 ,在 一 个 操作 中 调用 fit 和 transform。 我 们 来 看 看 变量 x 初始 和 
转换 之 后 的 数值 和 形态 ， 如 图 2-23 所 示 。 


scikitleam 中 所 有 实现 机 器 学 习 方法 的 类 都 来 自 
BaseEstimator ， 请 参见 : http://scikit-learn.org/stable/modules/ 


















































Original x variables 
[[1 2] 
[2 4]] 








Transformed x variables 
[[1 1 2 1 2 4] 
[12 4 4 8 16]] 


generated/sklearn.base.BaseEstimator.html 。 
































BaseEstimator 要 求 用 以 实现 的 类 提供 fit 和 transform 两 种 方 
法 ， 这 样 才能 保持 API 简洁 清晰 。 图 2-23 

我 们 再 看 另 一 个 示例 ， 从 tree 模块 中 引入 DecisionTreeClassifier 类 ， 它 实现 了 决策 树 
算法 。 






























































from sklearn.tree import DecisionTreeClassifier 


我 们 把 这 个 类 放 到 实践 操作 中 。 
from sklearn.datasets import load iris 


data = load iris() 
x = data['data'] 


y = data['target'] 


estimator - DecisionTreeClassifier() 
estimator.fit (x,y) 

predicted y = estimator.predict (x) 
predicted y prob = estimator.predict proba (x) 





predicted y lprob = estimator.predict log proba (x) 
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我 们 使 用 iris 数据 集 来 看 来 怎样 使 用 树 算法 。 先 把 iris 数据 集 加 载 到 变量 x 和 y 中， 然 
后 把 DecisionTreeClassifier 实例 化 ， 接 着 调用 fit 函数 ， 传 递 预 测 器 x 和 因 变 量 y 来 建立 模 
型 。 这 样 就 建立 了 一 个 树 模型 ， 我们 现在 可 以 用 它 来 进行 预测 。 我 们 用 predict 函数 对 给 定 
的 输入 预测 其 类 标签 。 如 你 所 见 ， 和 在 PolynomialFeatures 里 一 样 , 我 们 也 使 用 了 相同 的 fit 
和 predict 方法 。 还 有 另外 两 个 方法 : predict proba 和 predict log proba。 前 者 给 出 预测 的 






























































概率 ， 后 者 给 出 预测 概率 的 对 数 。 





















































现在 来 看 另 一 个 有 趣 的 功能 pipe lining, 使 用 这 个 功能 , 不 同 的 机 器 学 习 方 法 可 以 被 链 





接 在 一 起 。 


from sklearn.pipeline import Pipeline 


poly = PolynomialFeatures (3) 


tree estimator = DecisionTreeClassifier() 


我 们 从 实例 化 PolynomialFeatures 和 DecisionTreeClassifier 数据 处 理 规范 开始 。 


steps = [('poly',poly),('tree',tree estimator)] 











我 们 先 定 义 一 个 元 组 列表 来 标示 我 们 的 链接 顺序 。 运 行 多 项 式 特征 生成 器 之 后 ， 再 执行 决 


策 树 。 


estimator = Pipeline(steps-steps) 
estimator.fit (x,y) 
predicted y = estimator.predict (x) 




















我 们 通过 steps 变量 声明 的 列表 将 Pipeline 对 象 实例 化 。 








和 predict 方法 了 。 























现在 就 能 像 以 往 那 样 调用 fit 














我 们 可 以 调用 named. steps 属性 来 查看 模型 在 pipeline 里 的 不 用 阶段 的 情况 , 如 图 2-24 

















Bras 











»»» estimator.named steps 


i'tree': DecisionTreeClassifier(compute importances-None, criterion-'gini', 
max depth-None, max features-None, max leaf nodes-None, 
min density-None, min samples leaf-1, min samples split-2, 


random state-None, splitter-'best'), 'poly': 


gree-3, include bias-True, interaction only-False)) 


PolynomialFeatures(de 











图 2-24 








244 更 多 内 容 


scikit-learn 里 还 有 更 多 的 数据 集 生成 函数 ， 请 参见 : 
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http://scikit-learn.org/stable/datasets/ 。 





























在 使 用 make circle 和 make moons 函数 的 时 候 ， 我 们 曾经 提 到 可 以 给 数据 集 加 入 许多 
想 要 的 属性 ， 如 果 包 含 了 不 正确 的 类 标签 ， 数 据 可 能 会 受到 轻微 的 损坏 。 下 面 的 链接 列 日 
了 许多 描述 这 些 细微 差别 的 选项 ， 请 参见 : 























LZ 
































http://scikit-learn.org/stable/modules/generated/sklearn.datasets.make circles.html 和 


http://scikit-learn.org/stable/modules/generated/sklearn.datasets.make moons.html 
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Ifc 
二 


2 章 “Python 环境 ”中 “绘图 技巧 ”的 相关 内 容 。 

















数据 分 析 


在 这 一 章 里 ， 我 们 将 探讨 以 下 主题 。 












































使 用 热 图 











实施 概要 统计 及 绘图 

















使 用 箱 须 图 
修补 数据 








实施 随机 采样 


缩放 数据 
数据 标准 化 
实施 分 词 化 
删除 停 用 词 
词 提取 








实施 词 形 还 原 





j 图 表 分 析 单 变量 数据 
数据 分 组 和 使 用 点 阵 图 
为 多 变量 数据 绘制 散 点 阵 图 


























词 袋 模型 表示 文本 
计算 词 频 和 反 文 档 频率 


第 3 章 
一 一 探索 与 争鸣 


3.1 简介 



































在 投身 于 数据 科学 应 用 之 前 ， 你 得 先 对 自己 准备 处 理 的 数据 进行 充分 研究 ， 好 好 地 理 
解 它 们 ， 这 样 才 能 事半功倍 。 对 数据 潜在 含义 的 理解 能 帮助 你 选择 合适 的 算法 来 解决 面 对 
的 问题 ,对 数据 进行 不 同 粒度 上 的 探索 被 称 为 “探索 性 数据 分 析 ”(Exploratory Data Analysis; 
EDA)。 在 许多 实践 案例 中 ，EDA 能 发 现 数据 挖掘 算法 揭示 出 的 经 典 模 式 。EDA 让 我 们 了 
解数 据 的 特性 ， 给 我 们 指引 以 选择 合适 的 算法 解决 特定 的 问题 。 

本 章 中 ， 我们 会 详细 地 探讨 EDA， 对 一 些 实用 的 技术 和 工具 进行 讲解 ， 它 们 可 以 用 来 
高 效 地 进行 EDA 操作 。 

数据 预 处 理 和 转换 是 另外 两 个 重要 的 流程 ， 它 们 能 提高 数据 科学 的 模型 质量 ， 增 加 数 
据 科学 项 目的 成 功率 。 

数据 预 处 理 过 程 将 数据 整理 为 可 用 状态 , 以 便于 数据 挖掘 方法 或 者 机 器 学 习 算 法 使 用 。 
它 包含 许多 项 目 ， 比 如 数据 清洗 、 属 性 子 集 选择 、 数 据 转换 等 。 我 们 在 本 章 中 会 介绍 数值 
型 和 文本 型 数据 的 预 处 理 过 程 。 

文本 数据 和 数值 数据 完全 不 同 ， 我 们 要 采用 不 同 的 方法 进行 数据 转换 使 之 适合 机 器 学 
习 算 法 。 本 章 将 了 解 到 如 何 对 文本 数据 进行 转换 。 一 般 而 言 ， 文 本 转换 是 由 多 个 阶段 组 成 ， 
过 程 中 包含 了 多 个 管道 型 的 组 成 部 分 。 

其 中 的 一 些 组 成 部 分 如 下 所 示 。 

。 分 词 化 。 

。 停 用 词 删除 。 

。 转换 基准 。 

。 特征 导出 。 

一 般 来 说 ， 这 些 组 成 都 会 被 应 用 到 给 定 的 文本 上 以 获取 文本 特征 。 在 管道 的 末端 ， 
文本 数据 被 转换 为 机 器 学 习 算法 能 接收 的 形式 。 我 们 会 在 本 章 中 对 上 述 的 每 个 组 成 都 进 
行 讲解 。 
在 数据 采集 阶段 可 能 会 出 现 大 量 的 错误 ， 可 能 源 自 人 为 错误 、 边 界限 制 、 数 据 测 量 或 
采集 过 程 /设备 中 的 错误 等 。 数 据 不 一 致 是 个 大 问题 ， 我们 使 用 带 有 瑕 症 的 输入 数据 开始 数 
据 预 处 理 过 程 ， 先 要 人 处理 掉 这 些 错误 ， 然 后 才能 继续 后 面 的 处 理 过 程 。 

































































































































































































































































































































































































































































3.2 用 图 表 分 析 单 变量 数据 











Im. 











单 变量 数据 的 数据 集 




















高 ， 数 据 如 下 所 示 。 








5, 5.2, 6, 4.7, 

我 们 测量 的 数据 只 有 一 个 个 人 属性 一 一 高 度 
3.2.1 ”准备 工作 

我 们 采用 EDA 方式 对 这 个 数据 外 

















化 技术 就 很 容易 分 析出 数据 的 特 行 
pyplot 是 matplotlib 绘 
EM 想 获得 





所 需 的 





图 


























只 有 一 个 变量 / 列 , 单 变 量 在 数学 中 竹 
冰 数 或 者 一 元 多 项 式 等。 我 们 严格 定义 一 个 单 变量 函数 构成 示例 数据 集 。 测 














3.2 
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常见 ,如 表达 式 、 方 程式 、 
量 一 群 人 的 身 























， 这 就 是 一 个 单 变量 数据 的 示例 。 























进行 探索 ， 并 通过 可 视 化 进行 展示 。 选 择 合适 的 可 视 
E。 我 们 将 使 用 pyplot 来 绘制 
图 库 的 状态 机 接 











绘制 图 形 进行 数据 可 视 化 ， 
会 被 悄悄 地 自动 创建 来 生成 


























图 形 和 坐标 旬 





H. 





























优良 的 pyplot 参考 资料 ， 请 








参见 ; 











http:Wmatplotlib.org/users/pyplot tutorial.html. 








我 们 采用 美 





国 总 统 历年 在 








国情 咨文 中 对 








国会 提起 的 诉求 数量 作为 实例 ， 这 个 数据 可 以 


从 以 下 链接 获取 : http://www.presidency.ucsb.edu/data/sourequests.php。 
数据 的 部 分 样 例如 下 。 


1946, 
1947, 
1948, 
1949, 
1950, 
1951, 
1952, 
1953, 
1954, 
1955, 
1956, 
1957, 
1958, 
1959, 16 
1960, 6 


41 
28 
16 
28 
20 
11 
T9 
14 
39 
32 


14 
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我 们 可 以 形象 地 观察 这 些 数据 ， 并 发 现 其 中 的 一 些 异 常 。 可 以 采用 递归 方式 研究 这 些 
异常 ， 发 现 一 个 异常 ， 我 们 将 其 删除 ， 然 后 继续 对 剩余 数据 进行 处 理 。 
«X 在 每 一 次 迭代 过 程 中 ,删除 发 现 的 异常 值 之 后 继续 递归 
从- 一 ”地 检查 数据 ， 是 一 种 常用 的 检测 异常 值 的 方法 。 
3.2.2 ”操作 方法 


我 们 使 用 NumPy 的 数据 装载 工具 将 数据 加 载 进来 ， 然 后 处 理 数据 质量 问题 。 本 例 中 ， 
我 们 将 处 理 数 据 中 的 空 值 。 如 你 所 见 ，1956 年 和 1958 年 的 数值 为 空 值 ， 我 们 采用 lambda 
函数 将 空 值 用 0 RE. 

采用 下 面 的 代码 可 以 绘制 数据 图 形 以 观察 趋势 。 

# 工 . 加载 库 


import numpy as np 













































































































































































from matplotlib.pylab import frange 
import matplotlib.pyplot as plt 


fill data = lambda x : int(x.strip() or 0) 

data = np.genfromtxt('president.txt',dtype-(int,int),converters-(1:fi 
ll data),delimiter-",") 

x — data[:,0 
y = data[:,1 





# 2 .绘制 数据 图 形 以 观察 趋势 
plt.close('all') 











plt.figure(1) 
plt.title("All data") 
plt.plot (x,y,'ro') 





plt.xlabel('year') 
plt.ylabel('No Presedential Request') 

















我 们 计算 出 百 分 位 数 ， 并 绘制 在 图 形 中 作为 数据 的 参考 。 
#3. 计 算出 数据 的 百 分 位 数 (第 25、50、75 位 ) 以 了 解数 据 分 布 


perc 25 = np.percentile(y,25) 








perc 50 = np.percentile(y,50) 

perc 75 = np.percentile(y,75) 

print 

print "25th Percentile = $0.2f"$(perc 25) 
print "50th Percentile - $0.2f"$(perc 50) 








32 ”用 图 表 分 析 单 变量 数据 87 














print "75th Percentile = $0.2f"$(perc 75) 
print 
# 4. 将 这 些 百 分 位 数 添加 到 之 前 生成 的 图 形 中 作为 参考 

# 在 图 中 画 出 第 25、50、75 位 的 百 分 位 水 平 线 。 

plt .axhline (perc 25,1abel-'25th perc',c-'r') 






































plt.axhline (perc 50,1abel-2'50th perc',c-'g') 





plt.axhline (perc 75,1abel-2'75th perc',c-'m') 
plt.legend (loc='best') 


最 后 ， 检 查 生 成 的 图 形 中 是 否 存在 异常 点 。 若 有 ， 使 用 mask 函数 将 其 删除 。 清 除了 
异常 后 绘制 图 形 的 代码 如 下 。 

# 5. 在 图 形 中 查找 是 否 存 在 异常 点 

+ 使 用 mask 函数 删除 异常 点 

# 删除 异常 点 0 和 54 


y masked = np.ma.masked where(y--0,y) 










































































# Remove point 54 


y masked = np.ma.masked where(y masked--54,y masked) 





+ 6. 重 新 绘制 图 形 
plt.figure(2) 
plt.title("Masked data") 














plt.plot (x,y masked,'ro') 
plt.xlabel('year') 

plt.ylabel('No Presedential Request') 
plt.ylim(0,60) 








# 在 图 中 画 出 第 25、50、75 位 的 百 分 位 的 水 平 线 
plt.axhline (perc 25,1abel-2'25th perc',c-'r') 

















plt.axhline (perc 50,1abel-2'50th perc',c-'g') 
plt.axhline (perc 75,1abel-2'75th perc',c-'m') 
plt.legend(1loc-'best') 

plt.show() 


3.2.3 ”工作 原理 


在 第 1 步 中 ， 我 们 采用 上 一 章 中 所 学 的 数据 装载 技术 来 进行 操作 。 你 肯定 也 注意 到 
1956 和 1958 后 的 数据 被 留 空 了 ， 匿 名 函数 会 把 它们 替换 为 0。 


fill data = lambda x : int(x.strip() or 0) 


lambda 函数 fill data 将 数据 集中 的 所 有 空 值 进行 蔡 换 ， 本 例 中 第 11 行 和 第 13 




































































行 的 数值 被 蔡 换 为 0。 


data = np.genfromtxt('president.txt',dtype-(int,int),converters-(1:fiWN 
ll data),delimiter-z",") 











将 fill data 传递 给 genfromtxt 函数 的 converters 参数 ， 请 注意 converters 
采用 字典 作为 输入 ， 字 典 的 键 标识 了 函数 将 被 应 用 的 列 ， 而 值 则 标识 函数 。 在 本 例 中 ， 
fill data 被 指定 为 函数 ， 它 的 键 是 1， 这 意味 着 fi11 data 函数 将 被 应 用 到 列 1 E. 































































































我 们 可 以 从 控制 台 上 查看 数据 ， 如 下 所 示 。 
>>> data[7:15] 
array([ [1953, 14], 
1954, 39], 
955, 32], 
956, 0], 
957, 14], 
958, 0], 
959, 16], 
960, 6]]) 
>>> 
如 你 所 见 ，1956 年 和 1958 年 的 数值 被 修改 为 0。 为 了 画图 方便 ， 我 们 把 年 份 存在 x 
































lm 























BE ， 而 总 统 在 国会 的 国情 咨文 请 求情 况 放 到 y 里 。 








x = data[:,0] 
y = data[:,1] 





第 1 列 装载 年 份 信息 到 x 中 ， 第 2 列 则 存放 y。 
第 2 步 绘制 图 形 时 ，x 轴 是 年 份 信息 ，y 轴 是 该 年 的 数据 值 。 
































plt.close('all') 

















首先 得 关闭 之 前 的 程序 打开 的 所 有 图 








NS 





plt.figure(1) 








给 我 们 的 新 图 形 设置 一 个 编号 ， 这 样 在 程序 绘制 多 个 图 形 的 时 候 很 有 好 处 。 














plt.title("All data") 
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再 给 图 形 设置 一 个 标题 。 








plt.plot (x,y,'ro') 





我 们 可 以 把 x 和 y 绘制 出 来 。“ro” 参 数 告诉 pyplot 使 用 红色 (r) 的 点 (0) 





plt.xlabel('year') 
plt.ylabel('No Presedential Request') 





最 后 加 上 x 轴 和 y 轴 的 标签 。 
输出 的 图 形 如 图 3-1 所 示 。 





All data 
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图 3-1 
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详 之 后 ， 你 会 发 现 3 个 点 : 右边 最 上 面 的 一 个 点 和 x 轴 上 1960 年 代 左边 的 两 个 ， 它 们 明显 
和 其 他 的 点 不 一 样 。 因 此 ， 它 们 都 是 异常 点 。 























EV 。 一 个 异常 点 就 是 明显 落 在 绝 大 多 数 模式 分 布 范围 之 外 
$> 的 点 。(Moore fe McCabe, 1999 年 ) 


我 们 用 百 分 位 数 来 帮助 你 更 好 地 理解 这 些 点 。 
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如 果 有 一 个 长 度 为 N 的 向 量 V， 它 的 百 分 位 数 q 就 是 
V 的 排序 副本 中 q% 的 位 置 ，q 的 数值 和 两 个 最 相近 邻 
居 的 距离 作为 插值 参数 ， 用 来 判断 标准 化 情形 不 完全 匹 
VC B6 q 的 情景 时 的 百 分 位 数 。 如 果 q=50， 这 个 函数 等 价 
S> 于 中 位 数 ; q0 时 等 价 于 最 小 值 ; q=100 时 等 价 于 最 大 
值 。 要 了 解 更 多 信息 ， 请 参见 : 
http://docs.scipy.org/doc/numpy-dev/reference/ 


generated/numpy.percentile.html. 


为 什么 不 使 用 平均 数 呢 ? 我 们 会 在 概要 统计 的 小 节 中 专门 研究 它 。 百 分 位 数 有 其 优势 ， 
平均 值 往往 会 向 异常 点 倾斜 ， 例 如 右边 最 上 的 那个 点 就 会 把 平均 值 提高 不 少 ，1960 年 旁边 
的 那 两 个 异常 点 则 相反 。 而 百 分 位 数 把 数据 集 里 的 数值 范围 更 清晰 地 展示 出 来 ， 我 们 可 以 
使 用 NumPy Kiti 百 分 位 数 。 

























































































25th Percentile 



















































































第 3 步 中， 我 们 要 计算 百 分 位 数 并 将 其 打印 输出 。 € 
本 数据 集 的 百 分 位 数 计算 结果 输出 如 图 3-2 所 示 。 ew 
百 分 位 数 的 解释 : 


数据 集中 25% 的 点 低 于 13.00 (第 25 百 分 位 数 ); 
quU RERP 50% 的 点 低 于 18.50 (第 50 再 分 位 数 ) 
~ 数据 集中 75% 的 点 低 于 2525 (第 75 百 分 位 数 ) 
请 注意 ， 第 50 百 分 位 数 就 是 中 位 数 。 百 分 位 数 让 我 们 
更 清楚 数据 分 布 的 范围 。 








第 4 步 中 ， 我 们 将 这 些 百 分 位 数 的 水 平 线 绘制 出 来 ， 增 强 了 可 视 化 的 效果 。 
































# 在 图 中 和 画 出 第 25、50、75 位 的 百 分 位 的 水 平 线 
plt.axhline (perc 25,1abel-'25th perc',c-'r') 








plt.axhline (perc 50,1abel='50th perc',c-'g') 
plt.axhline (perc 75,1abel-2'75th perc',c="'m") 
plt.legend (loc="'best') 





















































这 些 水 平 线 是 用 plt.axhline () 函数 绘制 的 ， 它 在 给 定 的 y 位置 从 x 的 最 小 值 一 直 
画 到 x 的 最 大 值 。 我 们 可 以 通过 label 参数 为 它 设置 名 称 ，c 参数 设置 线条 颜色 。 
































T 
Ny 
| jn 


32 ”用 图 表 分 析 单 变量 数据 91 

















要 更 好 地 了 解 一 个 函数 ， 可 以 在 Python 控制 台 里 把 它 
传 给 help () 函数 。 本 例 中 即 help(plt.axhline), 
你 能 看 到 更 多 详细 信息 。 
最 后 ， 使 用 plt .legend() 来 添加 说 明 ， 并 用 loc 参数 让 pyplot 决定 最 佳 放 置 位 
置 ， 以 免 影响 读 图 。 
我 们 的 输出 如 图 3-3 所 示 。 
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第 5 步 中 ， 我 们 将 使 用 NumPy 提供 的 mask 函数 删除 异常 点 。 





# 删除 值 为 0 的 点 
y masked = np.ma.masked where (y==0,y) 
# 删除 值 为 54 的 点 


y masked = np.ma.masked where(y masked==54,y masked) 








屏蔽 是 一 个 方便 的 功能 ， 它 把 一 些 点 隐藏 起 来 ， 而 不 需要 将 之 从 数组 中 删除 。 我 们 传 
递 了 条 件 和 数值 两 个 参数 给 ma.masked where 函数 ， 它 将 数组 中 符合 条 件 的 点 进行 隐 
藏 。 上 面 的 第 1 个 条 件 是 隐藏 所 有 值 为 0 的 点 , 并 将 产生 的 结果 保存 到 y masked 数组 中 ， 
第 2 个 条 件 则 是 把 点 54 进行 隐藏 。 


最 后 在 第 6 步 里 重复 其 他 绘图 的 步 又， 最 终 的 图 形 如 图 3-4 所 示 。 
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3.2.4 参考 资料 


关内 
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1 Æ “Python 在 数据 科学 中 的 应 用 ”中 1.16 节 “ 使 用 lambda 创造 匿名 函数 ”的 相 


1 
1 


ns 
d 
E. 
E 
Bees 
E 





“Python 在 数据 科学 中 的 应 用 ”中 1.21 节 “ 对 列 进行 预 处 理 ” 的 相关 内 容 。 
“Python 在 数据 科学 中 的 应 用 ”中 有 关 使 用 Python 获取 数据 的 相关 内 容 。 
“Python 在 数据 科学 中 的 应 用 ”中 1.2 节 “ 使 用 字典 对 象 ”的 相关 内 容 。 



































3.3 ”数据 分 组 和 使 用 点 阵 图 


的 范 


为 了 更 好 了 解 掌握 数据 ， 我 们 得 使 用 EDA 方法 从 多 个 角度 对 数据 进行 或 深 或 浅 的 观 
察 。 换 一 个 思路 ， 我 们 可 以 使 用 点 阵 图 ， 所 谓 点 阵 图 ， 就 是 将 数据 分 成 多 个 组 绘制 在 一 定 
































围 内。 我 们 所 要 做 的 是 决定 如 何 进行 分 组 。 


|t 





点 阵 图 适合 小 型 到 中 型 的 数据 集 ,大 规模 的 数据 更 适合 
使 用 直方 图 。 


] 





3.3 数据 分 组 和 使 用 点 阵 











33.1 ”准备 工作 
本 节 使 用 和 上 节 一 样 的 数据 。 
3.3.2 ”操作 方法 



























































先 加 载 必需 的 库 ， 用 它 装载 数据 ， 然 后 进行 其 他 操作 ， 处 理 丢失 的 数据 ， 最 后 使 用 

















率 计 数 器 对 数据 进行 分 组 。 
+ 加 载 库 


import numpy as np 

import matplotlib.pyplot as plt 
from collections import Counter 
from collections import OrderedDict 
from matplotlib.pylab import frange 





# 工 .装载 数据 ， 处 理 丢失 的 数据 


fill data = lambda x : int(x.strip() or 0) 


data = np.genfromtxt('president.txt',dtype-(int,int),converters-(1:fi^ 


ll data),delimiter-",") 
x — data[:,0] 
y = data[:,1] 


# 2. 采 用 频率 (独立 的 点 的 个 数 ) 对 数据 进行 分 组 

t 给 定 一 些 点 ，Counter () 返回 一 个 字典 ， 键 是 数据 点 ， 值 是 数据 点 的 在 数据 集中 的 频率 。 
X 

X 








_freq = Counter (y) 
= np.array (x_freq.keys () ) 
y = np.array(x freq.values()) 

















我 们 采用 年 份 范围 作为 分 组 依据 来 绘 出 图 形 。 


# 3. 采 用 年 份 范围 进行 分 组 
x group = OrderedDict () 
































group- 5 
group count-1 
keys = [] 
values - [] 


for i,xx in enumerate (x): 
# 独立 的 数据 点 被 添加 到 列表 的 键 中 
keys.append (xx) 








values.append(y[il) 
# 假定 我 们 用 5 个 数据 点 (例如 5 年 ) 
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if group count == group: 





# 将 键 的 列表 转 为 元 组 
+ 用 新 元 组 元 素 作 为 x_group 字典 的 键 


x group[tuple(keys)] = values 
keys- [] 
values -[] 
group count = 0 
else: 


group count+=1 


+ 保存 最 后 一 对 键 和 值 


x group[tuple(keys)] = values 


print x 


# 4. 绘 制 分 组 数据 的 点 阵 


group 








DS 








plt.subplot (311) 


plt.titl 


e("Dot Plot by Frequency") 


# 绘制 频率 


plt.plot 


(y ,x ,'ro') 


plt.xlabel('Count') 

plt.ylabel('4£ Presedential Request') 
# 设置 x 轴 的 最 小 和 最 大 值 
plt.xlim(min(y )-1,max(y )-*1) 


plt.subplot (312) 


plt.titl 


e("Simple dot plot") 


plt.xlabel('4 Presendtial Request') 





plt.ylabel('Frequency') 


最 后 ， 我 





们 准备 好 数据 绘 于 





| 图形 。 














# 为 绘制 点 阵 图 准备 数据 
+ 为 每 一 对 (item， frequency) 8|ZE iy x fu y 


# 用 np.r 








epeat 函数 创建 一 个 列表 x， 其 中 每 个 元 














H 


A 3 





ER frequency X 


# y 也 是 一 个 列表 ， 元 素 介 于 0.1 到 frequency/10， 累 加 步 长 为 0.1 


for key, 
x 


Y 
tryt 


value in x freq.items(): 
= np.repeat (key, value) 
frange (0.1, (value/10.0),0.1) 


plt.plot(x ,y ,'go') 





except ValueError: 


# 设 


print x .shape, y .shape 


E x 轴 和 y 轴 的 最 小 和 最 大 值 














plt. 
plt. 


ylim(0.0,0.4) 


xlim(xmin--1) 





X 











plt.xticks(x freq.keys()) 


plt.subplot (313) 
x vals -[] 
x labels -[] 
y vals -[] 
x tick = 1 
for k,v in x group.items(): 
for i in range(len(k)): 
x vals.append(x tick) 
x label = '-'.join([str(kk) if not i else str(kk)[-2:] for\ 
i,kk in enumerate (k)]) 
x labels.append(x label) 
y vals.extend(list(v)) 
x tickt-1 


plt.title("Dot Plot by Year Grouping") 
plt.xlabel('Year Group') 
plt.ylabel('No Presedential Request') 
Eryt 
plt.plot(x vals,y vals,'ro') 





except ValueError: 


print len(x vals),len(y vals) 


plt.xticks(x vals,x labels,rotation--35) 
plt.show() 


3.33 ”工作 原理 









































第 1 步 
进行 分 组 ， 这 样 对 数据 的 特性 有 一 个 大 致 的 了 解 。 
第 2 和 第 3 步 中 ， 我 们 采用 不 同 的 分 组 条 件 
先 来 看 第 2 步 的 操作 。 

我 们 使 用 了 collections 包 里 的 Counter () 函数 。 
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SC 给 定 一 些 数据 点 ，CounterO 函 数 返 回 一 个 字典 ， 键 是 数 
据点 ， 值 是 这 个 数据 点 在 数据 集 里 出 现 的 频率 。 


， 我 们 采用 上 一 节 讨 论 过 的 方法 加 载 数据 。 开 始 绘图 之 前 ， 我 们 先 对 数据 点 





将 数据 集 传递 给 Counter () 函数 ， 从 中 抽取 出 键 和 值 ， 各 自 的 频率 存放 到 NumPy 数 






































值 x_ 和 y_ 中 ， 以 便于 绘制 图 形 。 这 样 ， 我 们 就 可 以 采用 频率 对 数据 进行 分 组 。 














绘 出 图 形 之 前 ， 我 们 在 第 3 步 中 还 执行 了 其 他 的 分 组 操作 。 
x 轴 是 年 份 ， 数 据 近年 份 升序 排序 。 在 这 一 步 里 ， 我 们 想 把 年 份 范围 作为 分 组 依据 。 





























[a 





























本 例 以 5 年 为 例 ， 也 就 是 说 ， 第 1 个 5 年 是 一 组 ， 第 2 组 是 第 2 个 5 年， 以 此 类 推 。 








group- 5 
group count-1 
keys = [] 
values - [] 





变量 group 定义 了 一 个 组 有 多 少年 。 本 例 共 有 5 个 组 ,当前 keys 和 values 是 两 个 








空 的 列表 ， 我 们 要 把 x My 中 的 值 填充 进去 ， 直 到 group_count 达到 group 的 值 5。 



































for i,xx in enumerate (x): 
keys.append (xx) 
values.append(y[il) 
if group count -- group: 
x group[tuple(keys)] = values 
keys- [] 
values -[] 
group count = 0 

group count-t-1 


x group[tuple(keys)] = values 



































x group 是 字典 名 ， 它 用 来 存放 数据 的 分 组 信息 。 因 为 要 持续 插入 数据 ， 所 以 我 们 用 























OrderedDict 类 记录 键 的 插入 顺序 。 


[s 


现在 来 绘 出 这 些 点 的 图 形 。 


我 们 使 用 subplot 参数 在 一 个 窗口 中 画 出 所 有 的 图 形 ， 它 的 参数 可 以 定义 行 数 〈3， 


$^ 、 OtderedDict 类 能 保留 键 被 插入 的 先后 顺序 。 ] 















































百 位 )， 列 数 〈1， 十 位 )， 当 前 子 图 所 占 位 置 。 画 好 的 图 形 如 图 3-5 所 示 。 
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最 上 面 的 图 中 ， 数 据 依 据 频率 进行 分 组 ，x 轴 是 发 生 次 数 ，y 轴 是 总 统 请 求 数量 。 我 们 












































可 以 看 出 ，30 及 以 上 的 总 统 请 求 次 数 都 只 出 现 一 次 。 如 前 所 述 ， 点 阵 图 十 分 适合 用 来 分 析 


数据 点 在 不 同 分 组 条 件 下 的 范围。 
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Dot Plot by Frequency 
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__ Dot Plot by Year Grouping 
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中 间 的 图 可 以 看 成 简化 的 直方 图 。 如 标题 所 描述 〈 由 pPIt.title() 定 义 )， 它 是 点 阵 
图 的 最 简单 的 形式 ，x 轴 是 真实 的 请 求 次 数 ， p n e hi 
率 。 在 直方 图 里 ， 要 小 心 设置 柱 体 的 大 小 ， 否 则 可 能 企 曲 数据 的 整个 图 形 。 幸 运 的 是 ， 简 
单 的 点 阵 图 不 会 发 生 这 样 的 情况 。 


最 下 面 的 图 中 ， 数 据 被 按照 年 份 进行 分 组 。 
3.3.4 参考 资料 











































































































第 1 章 “Python 在 数据 科学 中 的 应 用 ”中 1.16 节 “ 使 用 lambda 创造 匿名 函数 ”的 相 
关内 容 。 
第 1 章 “Python 在 数据 科学 中 的 应 用 ”中 1.21 节 “ 对 列 进行 预 处 理 ” 的 相关 内 容 。 








章 
第 1 “Python 在 数据 科学 中 的 应 用 ”中 有 关 使 用 Python 获取 数据 的 相关 内 容 。 
章 “Python 在 数据 科学 中 的 应 用 ”中 1.2 节 “ 使 用 字典 对 象 ”的 相关 内 容 。 


3.4 为 多 变量 数据 绘制 散 点 阵 图 


























了 解 了 单列 的 数据 ， 现 在 我 们 看 看 多 列 的 数据 。 在 对 变量 数据 进行 分 机 时， 我 们 更 感 
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合适 的 。 它们 之 间 只 有 以 下 4 


兴趣 的 是 这 



































` 
J ZN o 





。 无 关联 。 

。 强 关 联 。 

。 简单 关联 。 

。 多 元 〈 非 简单 ) 关联 。 























3.4.1 ”准备 工作 


Es 










































































文 些 列 之 间 是 否 存在 某 些 联 系 。 对 于 两 个 列 /变量 的 各 





























形 ， 从 标准 散 点 图 
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本 节 将 使 用 iris 数据 集 ， 它 是 由 了 Ronald Fisher 先生 引入 的 多 变量 数据 集 ， 请 访问 以 下 
链接 了 解 更 多 信息 : https://archive.ics.uci.edu/ml/datasets/Iris。 

iris 数据 集 有 150 个 实例 和 4 种 属性 / 列 ， 前 者 由 3 KEERA Cup Ee. SENE 

和 变色 高 尾 ) 各 50 条 记录 构成 ,后 者 由 花 葛 长度、 花 划 宽度 、 花 办 长 度 和 花 办 宽度 4 

性 (单位 为 厘米 ) 构成 。 这 样 ，iris 数据 集 同 时 也 是 一 个 很 好 的 分 类 数据 集 。 所 谓 分 类 ， 

给 一 个 输入 记录 ， 通 过 合适 的 训练 ， 将 它 归 于 某 一 个 分 类 。 





就 


n eu 





3.4.2 ”操作 方法 





先 载 入 必需 而 的 库 
# 加 载 库 


from sklearn.datasets import load iris 


并 获取 iris 数据 。 

















import numpy as np 
import matplotlib.pyplot as plt 
import itertools 


装载 Iris 数据 集 
data = load iris() 
x = data['data'] 

y = data['target'] 





col names - data['feature names'] 


接 下 来 演示 绘制 散 点 图 。 
# 2 .执行 绘制 一 个 简单 的 散 点 图 过 程 









































# 绘 出 6 个 图 形 ， 包 括 了 以 下 几 个 列 : 花 苯 长 度 、 花 苯 宽 度 、 花 辩 长 度 和 花 锥 宽度 


plt.close('all') 
plt.figure (1) 




















# 绘制 一 个 3 行 2 列 的 图 3 和 2 在 下 面 的 变量 中 体现 
subplot start - 321 
col numbers - range(0,4) 





# 给 图 





形 添加 标签 
col pairs 








plt.subplots adjust (wspace 0.5) 





for col pair in col pairs: 
plt.subplot(subplot start) 
plt.scatter(x[:,col pair[0]],x[:,col- 
plt.xlabel(col names[col pair[0]]) 
plt.ylabel(col names[col pair[1]]) 
subplot start-t-1 
plt.show() 


3.4.3 ”工作 原理 








3.4 为 多 变量 数据 绘制 散 点 阵 
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itertools.combinations (col numbers,2) 


pair[1]],c-y) 




















scikit 库 提 供 了 load iris O KZO EHA 
把 数据 加 载 到 变 字典 对 象 data H. Xf data 
的 标签 ， 请 看 x 和 y 的 值 ， 如 下 所 示 。 


>>> X.S 
(150, 4 
>>> y.s 
(150,) 
>>> 


E3À 
FH 


















































hape 
) 


hape 








如 你 所 见 ，x 是 一 个 150 行 4 列 的 矩阵 ，y 则 是 




















使 





>>> data['feature names'] 


['sepal length (cm)', 
width 
>>> 


'sepal width (cm)', 
(cm) '] 


^A 


IJ 


2 步 将 绘制 出 iris 的 散 点 
中 绘 出 多 个 图 形 : 调 


"d 














col pairs 














反复 调 





] col. pairs 可 以 得 到 列 的 两 两 组 合 ， 





图 。 和 之 前 的 操作 类 似 , 我 们 可 以 用 subplot 在 一 个 图 


用 itertools.combinations 


< 载 iris 数据 集 , 在 第 1 步 中 我 们 就 用 它 

















TUE 





标 键 ， 我 们 可 以 检索 出 记录 和 类 








一 个 长 度 为 150 的 向 量 。 我 们 也 可 以 


] feature names 关键 字 检索 字典 data 的 列 名 ， 如 下 所 示 。 


'petal length (cm)', 'petal 





像 





pA 


得 到 列 的 两 两 组 合 。 





itertools.combinations (col numbers,2) 


并 绘 出 每 个 散 点 图 








， 代 码 如 下 。 
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plt.scatter(x[:,col pair[0]],x[:,col pair[11],c-y) 


传递 c 参数 可 以 为 点 设置 颜色 。 本 例 中 我 们 传 的 是 变量 y (类 标签 )， 因此， 不 同类 别 
的 高 尾 属 花 的 点 颜色 各 不 相同 。 





























生成 的 图 如 图 3-6 所 示 。 
f 45 t7 
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图 3-6 








如 你 所 见 ， 我 们 绘 出 了 列 的 两 两 组 合 ， 用 不 同 颜色 表示 不 同 的 类 标签 。 请 看 右 下 角 的 
KDE: 花 办 长度 和 花 久 宽度 组 合 情 况 下 ， 不 同 的 数值 范围 点 属于 不 同 的 类 别 。 这 对 于 分 类 
来 说 是 一 条 清晰 的 线索 ， 也 就 是 说 如 果 目 前 的 问题 是 对 花 进行 分 类 ， 那 通过 花 泊 长 度 和 宽 
度 这 两 个 变量 进行 得 选 是 很 好 的 选择 。 









































$6 对 于 iris 数据 集 , 花 关 宽 度 和 长 度 可 以 独立 对 记录 里 花 
S> 的 种 类 进行 分 类 。 


双 变 量 散 点 图 里 出 现 的 可 观察 特性 可 以 帮助 你 快速 完成 特征 选 定 流 程 。 
344 ”参考 资料 


第 1 章 “Python 在 数据 科学 中 的 应 用 ”中 1.10 节 “ 使 用 可 迭代 对 象 ” 的 相关 内 容 。 


























3.5 使 用 热 图 101 














第 1 章 “Python 在 数据 科学 中 的 应 用 ”中 1.24 节 “ 使 用 itertools” 的 相关 内 容 。 


3.5 使 用 热 图 


"d 




















热 图 是 另 一 种 有 趣 的 可 视 化 技术 。 在 热 图 中 ， 数 据 的 形式 是 和 矩阵， 数据 的 属性 值 范 围 
用 颜色 渐变 来 表示 。 请 访问 以 下 维基 百科 的 链接 查看 对 热 图 的 整体 介绍 。 


http://en.wikipedia.org/wiki/Heat map. 


3.5.1] ”准备 工作 


我 们 继续 使 用 iris 数据 集 演示 如 何 创建 热 图 ， 并 认识 热 图 对 这 个 数据 集 的 不 同 应 用 
方式 。 
本 节 中 ， 我 们 探讨 如 何 将 整个 数据 集 用 热 图 表示 出 来 ， 如 何 从 图 中 对 数据 进行 不 同方 
位 的 解读 。 我 们 将 从 在 iris 数据 集 上 绘制 热 图 开始 。 
3.5.2 ”操作 方法 


先 载 入 必需 的 库 ， 获 取 iris 数据 ， 然 后 以 数据 的 平均 值 为 基准 ， 对 数据 进行 缩放 。 
# 加 载 库 


from sklearn.datasets import load iris 






































































































































from sklearn.preprocessing import scale 
import numpy as np 
import matplotlib.pyplot as plt 


# 1. WR iris 数据 集 

data = load iris () 

x = data['data'] 

y = data['target'] 

col names - data['feature names'] 





# O2. 根据 平均 值 对 数据 进行 缩放 

x = scale(x,with std-False) 
x = x[1:26,] 

y labels = range(1,260) 





现在 可 以 画 出 热 图 了 。 


+3. 绘制 热 区 
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plt. 


pits 


fig 
ax. 
ax. 
ax. 
ax. 
ax. 
ax. 


ax. 


plt. 


3.5.3 





close('all') 


figure (1) 


探索 与 争鸣 





rax = plt.subplots() 

pcolor(x ,cmap-plt.cm.Greens,edgecolors-'k') 
set xticks(np.arange(0,x .shape[1])-*0.5) 

set yticks(np.arange(0,x .shape[0])+0.5) 


xaxis.tick top() 
yaxis.tick left() 





set xticklabels (col names,minor-False,fontsize-10) 





set yticklabels(y labels,minor-False,fontsize-10) 





show() 


工作 原理 


























和 之 前 的 几 节 一 样 , 我 们 在 第 1 步 中 加 载 了 iris 数据 集 ， 为 清晰 起 见 ， 采 用 字典 对 象 x 


和 y 来 存放 它 。 第 2 步 里 ， 























以 数据 的 平均 值 为 基准 对 数据 进行 缩放 。 





X = scale (x,with std-False) 








standard 参数 被 设置 为 false 后 ，scale 函数 取 列 的 平均 值 作为 数据 标准 化 的 





基准 。 

















Cm 





col. 

































































对 数据 进行 标准 化 的 目的 是 使 得 每 列 数 据 的 范围 都 包含 在 相同 的 范围 内 ， 一 般 是 介 于 
0 到 1 之 间 。 对 于 热 图 来 说 ， 数 据 的 值 处 在 
数据 的 值 决定 颜色 渐变 程度 。 


千 万 不 要 忘 了 将 变量 值 缩 放 到 一 个 同样 的 范围 ， 没 有 合 














司 一 区 间 十 分 重要 ， 这 样 热 图 在 可 视 化 时 才能 























适 的 缩放 , 可 能 导致 热 图 里 的 变量 范围 和 比例 过 大 ， 引 
起 失真 。 

















x[1:26,] 








第 3 步 里 将 绘制 图 形 ， 在 此 之 前 ， 先 要 将 数据 分 出 一 些 子 集 。 


names = data['feature names'] 


y labels = range(1,26) 











如 你 所 见 , 我 们 只 取 前 25 条 记录 , 这 样 是 为 了 让 y 轴 上 的 标签 可 读 。 我们 在 col names 


和 >y labels 




















分 别 保存 了 x 轴 和 y 轴 的 标签 ， 最 后 从 pyplot 包 里 调用 pcolor 函数 绘 
出 iris 数据 集 的 热 图 ， 同 时 对 pcolor 进行 了 一 点 处 理 计 图 更 好 看 。 
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ax.set xticks (np.arange(0,x .shape[1])+0.5) 
ax.set yticks (np.arange(0,x .shape[0])+0.5) 


x 轴 和 y 轴 的 提示 形式 是 一 致 的 。 
ax.xaxis.tick top() 

x 轴 的 提示 显示 在 图 形 的 上 方 。 
ax.yaxis.tick left() 

y 轴 的 提示 显示 在 图 形 的 左 侧 。 


ax.set xticklabels (col names,minor-False,fontsize-10) 
ax.set yticklabels(y labels,minor-False,fontsize-10) 


最 后 传递 标签 数据 。 
输出 的 图 如 图 3-7 所 示 。 


sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) 


8 
7 
6 
5 
4 
3 
2 
1l 





图 3-7 
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3.5.4 更 多 内 容 
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ho 








为 3 种 类 别 的 花 绘 出 3 个 不 同 的 热 图 ， 代 码 如 下 。 





xl = x[0:50] 
x2 = x[50:99] 
x3 = x[100:149] 


xl = scale(x1,with std-False) 
x2 = scale(x2,with std-False) 
x3 = scale(x3,with std-False) 


plt.close('all') 
plt.figure(2) 


fig, (axl, ax2, ax3) = plt.subplots(3, sharex-True, sharey-True) 


y labels - range(1,51) 


axl.set xticks (np.arange(0,x.shape[1])-40.5) 
axl.set yticks (np.arange(0,50,10)) 


axl.xaxis.tick bottom() 


axl.set xticklabels (col names,minor-False,fontsize-2) 





axl.pcolor(x1,cmap-plt.cm.Greens,edgecolors-'k') 


axl.set title(data['target names'][0]) 





ax2.pcolor(x2,cmap-plt.cm.Greens,edgecolors-'k') 


ax2.set title(data['target names'][1]) 





ax3.pcolor(x3,cmap-plt.cm.Greens,edgecolors-'k') 














ax3.set title(data['target names'][2]) 
plt.show() 
输出 的 图 如 图 3-8 所 示 。 




















TH 
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们 将 分 别 绘 出 以 上 3 个 类 别 的 热 图 。 





前 50 条 记录 属于 山 芝 尾 ,， 第 2 个 50 条 是 维 吉 尼 亚 芝 尾 ， 最 后 50 条 则 是 变色 竟 
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iz 


的 另 一 种 有 趣 用 法 是 将 变量 通过 各 自 的 类 分 离开 来 ， 例 如 ， 我 们 在 iris 数据 集 上 


我 


单元 格 里 填充 的 是 记录 的 真实 数据 ， 你 会 发 现 山 总 尾 的 花瓣 宽度 有 明显 的 变化 ， 而 维 
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versicolor 


virginica 





3.55 ”参考 资料 
第 3 章 “ 数 据 分 析 一 一 探索 和 争鸣 ”中 3.10 节 “ 缩 放 数 据 ” 的 相关 内 容 。 


3.6 实施 概要 统计 及 绘图 


概要 统计 的 主要 目的 是 为 了 能 更 好 地 理解 数据 的 位 置 和 分 布 。 我 们 关注 的 是 平均 值 、 
中 位 数 和 标准 差 等 ， 这 些 数 都 很 容易 进行 计算 。 不 过 ， 如 果 数 据 不 是 单 峰 而 是 多 峰 分 布 的 ， 
这 些 数 字 就 没 那么 好 用 了 。 
如 果 给 定 的 数据 是 单 峰 分 布 的 ， 平 均值 可 以 指明 数据 的 
位 置 ， 标 准 差 指明 差异 分 布 ， 这 都 是 很 有 价值 的 指标 。 


3.6.1 准备 工作 


AEH iris 数据 集 来 进行 一 些 概要 统计 ， 不 过 不 给 出 完整 的 程序 来 获得 单一 的 输出 ， 
我 们 用 不 同 的 步骤 来 演示 不 同 统计 指标 的 应 用 。 





J 


3.6.2 ”操作 方法 


先 载 入 必需 的 库 ， 然 后 加 载 iris 数据 。 
# 加 载 库 
from sklearn.datasets import load iris 


import numpy as np 


from scipy.stats import trim mean 


# 加 载 iris 数据 集 


data = load iris() 
x = data['data'] 
y = data['target']col names = data['feature names'] 











下 面 演示 如 何 计算 平均 值 、 截 尾 均值 和 幅度 值 。 
# 1. 计 算 并 打印 iris 数据 集 每 一 列 数据 的 平均 值 


print "col name,mean value" 





























for i,col name in enumerate(col names): 
print "$s,2$0.2f"$(col name,np.mean(x([:,i])) 


print 


# 2 .计算 截 尾 均 值 
p = 0.1 £ 10% 截 尾 均值 


print "col name,trimmed mean value" 





for i,col name in enumerate(col names): 
print "$s,$0.2f"$(col name,trim mean(x[:,i],p)) 


print 





# 3 .数据 离 差 ， 计 算 并 显示 幅度 值 
print "col names,max,min,range" 


for i,col name in enumerate(col names): 











print "£$s,$0.2£,$0.2£,$0.2f£"$ (col name,max(x[:,i]),min(x[:,i]),maxN 
(x[:,i])-min(x[:,il)) 
print 


|^ 








H 


最 后 ， 计 算 方差 、 标 准 差 、 平 均 绝对 离 差 和 绝对 中 位 差 等 。 
# 4 .数据 离 差 、 方 差 和 标准 差 


print "col names,variance,std-dev" 








for i,col name in enumerate(col names): 
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| 


107 











print "$s,$0.2f,$0.2f"$(col name,np.var (x[:,i]),np.std(x[:,i])) 


print 


# 5. 计 算 平均 绝对 离 差 


def mad(x,axis-None): 





mean = np.mean(x,axis-axis) 


return np.sum(np.abs(x-mean))/(1.0 * len(x)) 


print "col names,mad" 
for i,col name in enumerate (col names): 
print "$s,$0.2f"$(col name,mad(x[:,il)) 


print 


& 6. 计 算 绝 对 中 位 差 
def mdad(x,axis-None): 
median = np.median(x,axis-axis) 


return np.median (np.abs (x-median)) 


print "col names,median,median abs dev,inter quartile range" 
for i,col name in enumerate(col names): 
igr = np.percentile(x[:,i],75) - np.percentile(x[:,il,25) 
print "£$s,$0.2£,$0.2f,50.2£"$(col name,np.median(x[:,i]),^ 
mdad(x[:,i]),iqr) 


print 


3.6.3 工作 原理 


我 们 认为 读者 已 经 从 前 面 章节 学 会 了 如 何 加 载 iris 数据 集 ， 就 不 再 袭 述 。 现 在 把 数 

集中 所 有 芒 尾 花 实 例 的 4 个 列 的 记录 全 都 装载 到 变量 x 里 。 "ECHTE 
sepal length (cm),5. 

第 1 步 中 我 们 使 用 Numpy 的 mean 函数 打印 输出 了 iris 数 | enal width (oa aos. 











HI 


















































据 集 每 列 的 平均 值 ， 输 出 语句 和 结果 如 图 3-9 所 示 。 0 


petal width (cm),1.20 




















如 你 所 见 ， 每 列 的 平均 值 都 算 好 了 ， 计 算 代 码 如 下 所 示 。 





图 3-9 


np.mean (x[:,i]) 














我 们 在 循环 体 中 传递 了 所 有 的 行 和 列 ， 这 样 求 出 按 列 的 平均 值 。 


截 尾 均 值 是 男 一 种 有 趣 的 指标 ， 它 有 自己 的 特长 ，10% 截 尾 均 值 就 是 将 数据 中 最 大 的 
10% 和 最 小 的 10% 排 除 后 ， 计 算 剩 下 80% 数 据 的 算术 平均 值 。 









































108 第 3 章 数据 分 析 一 一 探索 与 争鸣 


[$$ 相对 于 普通 的 平均 值 ， 截 尾 均值 对 异常 点 不 敏感。 ] 








scipy 提供 了 截 尾 均值 函数 ， 我 们 在 第 2 步 中 演示 了 它 的 用 法 ， 输 出 结果 如 图 3-10 


所 示 。 











iris 数据 集 看 起 来 差异 不 大 ,而 在 现实 生活 的 数据 集 











真实 的 位 置 。 


有 ,， 截 尾 均 值 有 利于 描绘 出 数据 更 


到 目前 为 止 ， 我 们 了 解 了 数据 的 位 置 ， 以 及 平均 值 和 截 尾 均值 是 推断 它 的 恨 好 指标 。 


























另 一 个 重要 的 方面 是 关于 数据 的 分 布 ， 其 中 一 个 指标 就 是 幅度 ， 其 定义 如 下 : 给 定 一 些 值 
























































x， 幅 度 就 是 x 中 的 最 大 值 减 去 x 中 的 最 小 值 。 第 3 步 中 我 们 计算 并 打印 输出 了 幅度 值 ， 如 























图 3-11 所 示 。 











col names,max,min,range 


col name,trimmed mean value sepal length (cm),7.90,4.30,3.60 
sepal length (cm),5.81 sepal width (cm),4.40,2.00,2.40 
petal length (cm),6.90,1.00,5.90 
petal width (cm),2.50,0.10,2.40 


sepal width (cm),3.04 
petal length (cm),3.76 
petal width (cm),1.18 














E] 3-10 





do IB SAEC ALAE, de 

GX 在 某 个 值 附近 , 只 有 一 些 值 超越 这 些 

的 幅度 值 可 能 就 容易 让 人 产生 误解 。 

当 数 据点 都 落 在 很 窜 的 范围 里 ， 并 簇拥 在 某 个 值 附近 

据 的 离 差 / 展 布 。 方 差 是 各 个 数据 分 别 与 其 平均 数 之 差 的 平 
介绍 了 方差 的 计算 。 



























































图 3-11 








即 大 多 数 点 都 簇拥 
范围 , 这 种 情形 下 














的 时 候 ， 方 差 常 常 被 用 来 衡量 数 
方 的 和 的 平均 数 。 第 4 步 中 我 们 























在 前 面 的 代码 中 ， 除 了 方差 ， 我 们 还 提 及 了 标准 差 。 方 差 是 平方 差 ， 和 原 数 据 不 是 相 











同 的 衡量 维度 ， 而 标准 差 是 方差 的 平方 根 ， 这 样 它 就 回 到 
原 数 据 的 衡量 维度 上 了 。 请 看 图 3-12 所 示 打 印 方 差 和 标准 














差 的 语句 输出 结果 。 












col names,variance,std-dev 
sepal length (cm),0.68,0.83 
sepal width (cm),0.19,0.43 
petal length (cm),3.09,1.76 
petal width (cm),0.58,0.76 








前 面 提 到 过 ， 平 均值 对 异常 点 是 很 敏感 的 ， 方 差 也 使 





用 了 平均 值 ， 因 此 和 平均 值 一 样 对 此 类 情况 有 相同 的 倾向 。 






































为 了 避免 这 个 缺陷 ， 我 们 可 以 使 用 其 他 的 指标 ， 其 中 一 种 是 平均 绝对 离 差 ， 它 不 再 对 各 个 
数据 与 平均 值 的 差 进行 平方 后 除 以 总 数 ， 而 是 对 各 个 数据 与 平均 值 的 差 求 绝对 值 









































图 3-12 


























然后 再 
































3.6 ”实施 概要 统计 及 绘图 109 
除 以 样本 总 数 。 第 5 步 中 ， 我 们 定义 了 这 个 函数 。 
def mad(x,axis-None): 
mean = np.mean(x,axis-axis) 
return np.sum(np.abs(x-mean))/(1.0 * len (x)) 
如 你 所 见 ， 这 个 函数 返回 的 是 各 个 数据 与 平均 值 的 差 的 绝对 值 差 。 输 出 结果 如 图 3-13 






































col names ,mad 

即使 数据 中 有 很 多 异常 点 ， 还 是 有 很 多 其 他 方便 的 指标 可 | seal iet (ia) 9.39. 
， 如 中 位 数 和 百 分 位 数 。 我 们 在 之 前 的 小 节 讲解 “为 单 变量 | Petal length (en),1.56 
数据 绘制 图 形 ” 的 时 候 中 已 介绍 过 百 分 位 数 。 中 位 数 的 传统 定 

义 是 从 数据 集中 找到 一 个 处 于 中 间 的 数值 ， 这 样 数据 集中 一 半 
的 数据 点 比 它 大 ， 而 另 一 半 比 它 小 。 















































忆 












































我 们 在 前 面 了 第 25 和 第 75 百 分 位 数 。 第 25 百 分 位 数 意 味 着 数据 集 里 
25% 的 数据 点 的 值 比 它 小 。 





百 一 般 化 扩展 ， 0 百 分 位 数 ] 








i 



































>>> 
>>> a = [8,9,10,11] 

>>> np.median (a) 

9.5 

>>> np.percentile (a,50) 
955 














中 位 数 是 一 个 对 于 数据 分 布 的 位 置 的 度量 指标 ， 使 用 百 分 位 数 ， 我 们 也 能 获得 一 种 数 
据 分 布 的 度量 指标 : 四 分 位 差 ， 它 是 第 75 百 分 位 到 第 25 百 分 位 的 距离 。 类 似 于 之 前 提 到 
的 平均 绝对 离 差 ， 也 有 中 位 绝对 离 差 。 
第 6 步 中 对 四 分 位 差 和 中 位 绝对 离 差 进行 计算 ,我们 定义 下 面 的 函数 来 计算 中 位 绝对 
离 差 。 



























































def mdad(x,axis-None): 
median = np.median(x,axis-axis) 


return np.median (np.abs(x-median)) 








输出 结果 如 图 3-14 所 示 。 
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col names,median,median abs dev,inter quartile range 
sepal length (cm),5.80,0.70,1.30 
sepal width (cm),3.00,0.25,0.50 
petal length (cm),4.35,1.25,3.50 
petal width (cm),1.30,0.70,1.50 
















图 3-14 








3.6.4 “参考 资料 











第 3 章 “ 数 据 分 析 一 一 探索 和 争鸣 ”中 3.3 节 “ 数 据 分 组 和 使 用 点 阵 图 ”的 相关 内 容 。 

















在 概要 统计 里 ， 箱 须 图 是 一 种 好 用 的 查看 统计 信息 的 工具 ， 它 能 高 效 地 表达 出 数据 的 











干 分 数位 ， 如 果 数 据 中 有 异常 点 ， 它 也 能 通过 展示 数据 的 整体 结构 将 其 显现 出 来 。 箱 须 图 





具有 以 下 特点 。 
e 标 出 水 平 的 中 位 线 ， 指 明 数 据 的 位 置 。 
。 箱 体 扩展 到 四 分 位 范围 ， 用 来 衡量 数据 的 分 布 。 





















































。 一 系列 的 虚线 从 中 间 的 箱 体 或 横 或 纵 伸 展 ， 表 明 数 据 的 尾部 分 布 。 





3.7.1 “准备 工作 
我 们 在 iris 数据 集 上 应 用 箱 须 图 。 
3.7.2 ”操作 方法 


从 载 入 所 需 的 库 开始 ， 然 后 加 载 irir 2308.5 
+ 加 载 库 


from sklearn.datasets import load iris 


























ya 
o 











import matplotlib.pyplot as plt 


# 加 载 Iris 数据 集 
data = load iris() 
x = data['data'] 
plt.close('all') 





下 面 演示 如 何 创建 一 个 箱 须 图 。 


























# 绘制 箱 须 图 
fig = plt.figure(1) 

ax — fig.add subplot (111) 

ax.boxplot (x) 

ax.set xticklabels (data['feature names']) 
plt.show() 








3.7.3 ”工作 原理 


上 面 的 代码 直接 了 当 , RA iris 数据 集 到 x 中 , 然后 传递 x 给 pyplot 里 的 boxplot 
函数 。 你 已 知道 ，x 中 有 4 个 列 ， 绘 制 出 来 的 箱 须 图 如 图 3-15 所 示 。 





























0 
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) 





图 3-15 








箱 须 图 在 一 个 图 形 里 将 全 部 4 个 列 的 数据 的 位 置 和 分 布 都 清晰 地 展示 出 来 了 。 

红色 的 水 平 线 表 示 中 位 数 ， 指 明了 数据 的 位 置 。 你 会 注意 到 花 划 长 度 的 中 位 数 明显 大 
于 其 他 列 的 中 位 数 。 

对 于 所 有 的 4 个 变量 ， 箱 体 均 扩展 到 四 分 位 范围 ， 表 明了 数据 的 分 布 。 
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你 会 看 到 一 系列 的 虚线 从 中 间 的 箱 体 或 横 或 纵 伸展 ， 表 明 数 据 的 尾部 分 布 ， 那 些 虚 线 
显示 了 数据 的 极 值 。 


3.7.4 更 多 内 容 


如 果 能 看 到 数据 在 不 同 的 类 别 标签 下 如 何 分 布 的 情况 ， 那 是 很 有 趣 的 。 和 在 散 点 图 一 
节 中 所 做 的 类 似 ， 我 们 来 展示 如 何在 多 个 类 别 标签 间 绘 制 箱 须 图 ， 代 码 如 下 。 






































y-data['target'] 


class labels = data['target names'] 


fig = plt.figure(2,figsize-(18,10)) 
sub plt count = 221 
for t in range(0,3): 
ax = fig.add subplot (sub plt count) 
y index = np.where(y--t)[0] 
x = x[y index,:] 
ax.boxplot (x ) 
ax.set title(class labels[t]) 
ax.set xticklabels(data['feature names']) 
sub plt count-*-1 
plt.show() 





下 面 的 图 3-16 展示 出 我 们 给 每 个 类 别 分 别 绘制 了 一 个 箱 须 图 。 


versicolor 


O nyuwu b w o 


-== 


sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) sepa! length (cm) sepal width (cm) petal length (cm) petal width (cm) 
virginica 

















"M ow 5 ou OO v O0 





sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) 





3.8 修补 数据 


现实 场景 里 常常 碰 到 数据 不 完整 或 者 数 和 











居于 失 的 情况 ， 我 们 需要 一 


3.8 ”修补 数据 




















的 策略 。 这 种 策略 是 程序 化 的 ， 可 以 直接 应 月 























也 可 以 结合 类 别 标签 进行 处 理 。 








3.8.1 ”准备 工作 











日 到 单 p 2c 





我 们 先 来 看 如 何在 没有 类 别 标签 的 情形 下 修补 数据 。 






































种 简单 的 技术 就 是 直接 忽略 丢失 


























ESE 
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ges e rs ASIE, 











' 处 理 不 完整 数据 
中 上 ， 如 果 数 据 中 带 有 类 别 标签 ， 
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这 


的 数据 缺失 量 很 


小 ， 所 占 的 百分比 很 低 的 话 ， 我 们 可 以 忽略 掉 它 们 。 一 般 来 说 ， 不 能 仅仅 将 一 个 变量 的 一 
个 值 忽略 ， 必 须 将 包含 这 个 变量 的 元 组 整个 忽略 不 计 。 如 果 要 这 样 做 ， 我 们 得 非常 慎重 ， 
























































因为 元 组 里 的 其 他 属性 可 能 对 于 任务 目标 十 分 重要 。 











一 种 更 好 的 处 理 丢失 数据 的 办 法 是 对 它 ; 






































也 可 以 结合 类 别 标签 进行 。 对 于 变量 是 连续 值 的 场景 ， 平 均值 、 上 
值 都 可 以 被 用 来 蔡 代 丢失 的 数据 。scikit-learn 在 preprocessing 模块 里 提供 
Imputer () 函数 来 处 理 丢 失 的 数据 。 我 们 接着 来 看 进行 数据 修补 的 示例 ， 为 了 更 好 地 型 



















































































修补 技术 ， 我 们 故意 在 iris 数据 集 里 制造 了 一 些 丢 失 的 值 。 








3.8.2 ”操作 方法 















































行 拟 合 。 当 前 的 拟 合 过 程 可 以 针对 数据 本 身 ， 
位 数 或 者 最 常见 的 的 数 






































从 载 入 所 需 的 库 开始 ， 然 后 加 载 iris 数据 集 ， 并 制造 一 些 随机 的 数据 值 丢 失 。 





# 加 载 库 








from sklearn.datasets import load iris 


from sklearn.preprocessing import Imputer 


import numpy as np 


import numpy.ma as ma 


# 1. 加 载 Iris 数据 集 


data = load iris() 











i 
Ug 
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x = data['data'] 
y = data['target'] 


制作 一 份 原始 的 x 的 副本 


x t = x.copy() 





2 .在 第 2 行 里 制造 一 些 丢 失 的 值 
x t[2,:] = np.repeat (0,x.shape[1]) 








现在 进行 数据 修补 操作 。 


3 .现在 创建 一 个 imputer 对 象 ， 采 用 平均 值 策 略 
例如 ， 在 丢失 数据 的 列 中 ， 用 平均 值 填 到 丢失 数据 的 位 置 上 


imputer = Imputer (missing values-0,strategy-"mean") 
































x imputed - imputer.fit transform(x t) 


mask = np.zeros like(x t) 
mask[2,:] = 1 
x tm = ma.masked array(x t,mask) 


print np.mean(x t m,axis-0) 


print x imputed[2,:] 


383 工作 原理 


第 1 步 是 将 iris 数据 集 加 载 到 内 存 中 ,第 2 步 是 制造 一 些 丢 失 的 数据 ,本 例 中 是 将 第 3 
行 中 所 有 列 的 值 设 为 0。 


第 3 步 里 ， 我 们 使 用 imputer 对 象 来 处 理 技 失 的 数据 。 











"d 
































imputer = Imputer (missing values-0,strategy-"mean") 





如 你 所 见 ， 我 们 需要 两 个 参数 ，missing_value 用 来 指出 哪些 是 丢失 的 数据 ， 
strategy 则 是 如 何 修补 丢失 的 数据 的 策略 ，Imputet 对 象 提供 以 下 3 种 策略 。 


e. 平均 值 (mean)。 
e. 中 位 数 (median). 

















。 最 常用 的 值 (most_frequent)。 


使 用 平均 值 策略 ， 值 为 0 的 单元 格 会 被 所 属 的 列 的 平均 值 蔡 换 ， 中 位 数 策略 则 使 用 中 
位 数 。 而 最 常用 的 值 策略 ， 顾 名 思 义 ， 就 是 用 这 列 中 出 现 次 数 最 多 的 值 来 替换 0 值 。 根 据 




















3.8 修补 数据 












































程序 的 上 下 文 ， 我 们 可 以 使 用 其 中 的 一 种 策略 来 执行 。 








x[2, : ] 的 最 初 的 值 如 下 所 示 。 
> 254550] 
array (P EST. 3325 hd 2052] 


























我 们 把 它 在 所 有 的 列 中 的 值 都 改 为 0， 然后 采用 imputer 的 平均 值 策略 。 
查看 修补 结果 之 前 ， 我 们 先 计算 出 所 有 列 的 平均 值 。 


























import numpy.ma as ma 

mask = np.zeros like (x t) 
mask[2,:] = 1 

xt m= ma.masked array(x t,mask) 


print np.mean(x t m,axis-0) 





输出 结果 如 下 所 示 。 


[5.851006711409397 3.053020134228189 3.7751677852349017 
1.2053691275167793] 


现在 看 看 编号 为 2 的 行 在 修补 之 后 的 输出 结果 。 

















print x imputed[2,:] 





输出 结果 如 下 所 示 。 


[ 5.85100671 23.05302013 3.77516779 1.20536913] 














如 你 所 见 ，imputer 把 那些 丢失 的 值 用 各 自 列 的 平均 值 进行 了 替换 。 


























3.8.4 更 多 内 容 


之 前 讨论 过 ， 我 们 可 以 在 修补 过 程 中 结合 类 别 标签 ， 然 后 用 平均 值 或 者 中 位 数 进行 


拟 























ET o 


# 基于 类 别 标签 进行 修补 
missing y = y[2] 





x missing = np.where(y--missing y)[0] 
= data['target'] 


y 
# 平均 值 策略 
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print np.mean(x[ 
# 中 位 数 策略 


print np.median( 
































子 集中 计算 出 来 的 值 。 


missing y = y[2] 


x missing,:],axis-0) 


x[x missing,:],axis-0) 












































并 非 使 用 整个 数据 集中 的 平均 值 或 中 位 数 ， 我 们 使 用 的 是 在 丢失 数据 的 元 组 所 在 类 的 


我 们 在 第 3 条 记录 中 制造 了 丢失 数据 ， 我 们 把 关联 于 这 条 记录 的 类 别 标签 保存 到 


missing y 变量 中 。 





x missing = np.w 


here(y--missing y)[0] 








现在 ， 我 们 可 以 使 
平均 值 策略 


print np.mean(x[ 
中 位 数 策 略 


print np.median( 

















中 位 数 进 行 蔡 换 了 。 




















现在 我 们 可 以 把 丢失 数据 的 元 组 里 的 数据 





x missing,:],axis-0) 


x[x missing,:],axis-0) 
























































具有 相同 类 别 标签 的 元 组 中 的 数据 了 。 


在 这 次 数据 修补 过 程 中 ， 我 们 采用 的 是 子 集 中 的 平均 值 /中 位 数 。 


385 参考 资料 











第 3 章 “ 数 据 分 析 一 一 探索 和 争鸣 ”中 3.6 节 “ 实 施 概 





3.9 实施 随机 采样 


这 一 节 我 们 来 讨论 如 何 对 数据 进行 随机 采样 。 


3.9.1 ”准备 工作 






































即 只 提取 整体 的 一 部 分 来 进行 分 析 。 采样 也 是 EDA 中 的 一 和 
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要 统计 及 绘图 ”的 相关 内 容 。 


通常 情 况 下 ,如 果 对 整个 数据 集 进行 处 理 需要 高 昂 的 代价 ， 那么 应 该 对 数据 进行 采样 ， 





本 应 该 


够 很 好 地 代表 整体 数据 集 ， 具 有 和 原 数据 基本 一 致 的 特征 。 例 如 ， 平 均值 就 是 一 个 重要 








j 与 它 类 别 标签 相同 的 所 有 元 组 的 平均 值 或 
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特征 ， 样 本 的 平均 值 必须 和 原 数 据 的 平均 值 尽 量 接 近 。 实 践 中 采样 技术 多 种 多 样 ， 我 们 只 
介绍 其 中 的 一 种 。 

在 进行 简单 的 随机 采样 时 ， 任 何 元 组 被 选中 的 几率 是 相同 的 。 本 节 中 ， 我 们 将 从 iris 
集中 随机 采样 10 条 记录 。 

3.9.2 ”操作 方法 


我 们 从 载 入 所 需 的 库 开始 ， 然 后 加 载 iris 数 

































































ml 
Lid 








# 加 载 库 

from sklearn.datasets import load iris 
import numpy as np 

# 1. 加 载 iris 数据 集 

data = load iris() 


x = data['data'] 


现在 演示 如 何 执行 采样 操作 。 





+ 2 .从 加 载 的 数据 集 里 随机 采样 10 条 记录 


no records = 10 





x sample indx = np.random.choice (range (x.shape[0]),no records) 


print x[x sample inàx,:] 


3.9.3 工作 原理 


第 1 步 中 加 载 了 iris 数据 集 。 第 2 步 里 , 我 们 使 用 numpy . random 里 的 choice 函数 
进行 了 随机 选择 。 

我 们 传递 给 choice 函数 两 个 参数 ， 一 个 是 范围 变量 ， 指 出 从 原始 数据 集中 进行 抽取 
的 记录 行 范 围 ， 男 一 个 则 是 所 需 的 样本 大 小 。 指 定 范 围 在 0 到 原始 数据 集 的 总 行 数 之 间 ， 
choice 函数 将 随机 选择 整数 n 条 记录 一 一 n 就 是 样本 大 小 本 例 中 我 们 用 
no_records 来 指定 。 

还 有 一 个 重要 的 内 容 : choice 函数 还 有 一 个 参数 replace， 默 认 情 况 它 被 设置 为 
True， 它 指定 采样 带 蔡 换 或 者 不 带 奉 换 。 采 样 不 带 蔡 换 时 ， 被 采样 的 项 目 会 被 从 原始 数据 
集中 删除 ， 这 样 它 不 会 再 被 其 他 的 采样 程序 选中 。 而 带 蔡 换 的 采样 与 之 相反 ， 数 据 这 次 被 
采样 后 ， 在 其 他 程序 进行 采样 时 仍然 有 同样 的 机 会 被 再 次 选中 。 
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3.9.4 更 多 内 容 


1. 分 层 采 样 

如 果 数 据 集 由 不 同 的 组 构成 ， 简 单 的 随机 采样 可 能 无 法 获取 合适 的 样本 来 代表 整个 数 
据 集 。 例 如 ， 在 一 个 两 类 分 类 问题 中 ，10% 的 数据 是 正 数 ，90% 的 数据 是 负数 。 这 种 问题 
在 机 器 学 习 中 被 称 为 非 平 衡 类 问题 。 在 非 平 衡 的 数据 集中 采样 ， 样 本 必须 能 反映 出 数据 原 
来 的 分 类 百分比 。 这 种 采样 就 是 分 层 抽 样 ， 我 们 会 在 后 续 的 机 器 学 习 一 节 中 详细 介绍 。 

2. 渐进 采样 

给 定 一 个 要 解决 的 问题 ， 我 们 如 何 决定 正确 的 样本 大 小 ? 之 前 讨论 了 一 些 采 样 技术 ， 
但 我 们 都 没有 谈 及 选择 合适 的 样本 大 小 的 策略 ， 这 个 问题 其 实 并 没有 一 个 简单 的 答案 。 一 
个 解决 的 方法 是 采用 渐进 采样 : 先 定 一 个 采样 大 小 ， 然 后 用 任意 的 采样 技术 抽取 样本 ， 对 
样本 进行 操作 ， 然 后 记录 下 结果 。 接 着 ， 增 大 采样 大 小 ， 重 复 上 面 的 步骤 。 这 个 重复 的 过 
程 就 称 为 渐进 采样 。 


3.10 缩放 数据 



































































































































































































































这 一 节 我 们 来 讨论 如 何 对 数据 进行 缩放 。 
3.10.1 ”准备 工作 


缩放 是 一 种 非常 重要 的 数据 转换 手段 。 一 般 来 说 ， 对 数据 集 进行 缩放 之 后 ， 我 们 能 够 
控制 数值 的 范围 ， 这 样 数据 类 型 可 以 匹配 。 数 据 集 里 有 多 个 列 的 时 候 ， 数 值 较 大 的 列 对 于 
其 他 列 更 有 优势 ， 因 此 我 们 必须 对 数据 进行 缩放 以 避免 这 种 干扰 。 

假定 我 们 正在 对 比 两 个 软件 产品 , 一 个 比较 标准 是 特性 的 数量 , 男 一 个 则 是 代码 行 数 。 
代码 行 数 之 间 的 差距 要 远 远 超过 两 者 的 特性 数量 差 ， 所 以 本 例 中 的 比较 结果 会 被 代码 行 数 
所 主导 。 如 果 我 们 选择 其 他 类 似 的 比较 标准 ， 它 们 之 间 的 相同 或 者 相 异 仍然 被 代码 行 数 所 
掩盖 。 为 了 避免 出 现 这 样 的 情况 ， 我 们 必须 采取 数据 缩放 。 最 简单 的 一 种 方法 就 是 最 小 最 
大 缩放 ， 我 们 在 一 个 随机 生成 的 数据 集 上 来 应 用 这 种 方法 。 


3.10.2 ”操作 方法 
我 们 生成 一 些 随机 数据 用 来 测试 缩放 功能 。 
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# 加 载 必需 的 库 


import numpy as np 
# 工 .生成 一 些 随机 数据 用 来 缩放 
np.random.seed(10) 


x = [np.random.randint(10,25)*1.0 for i in range (10)] 














现在 演示 如 何 进行 缩放 。 


# 2 .定义 一 个 函数 ， 它 可 以 对 给 定 的 一 个 数值 列表 进行 最 小 最 大 缩放 
def min max(x): 


return [round((xx-min(x))/(1.0*(max(x)-min(x))),2) for xx in x] 
# 3 .对 给 定 的 输入 列表 数据 进行 缩放 。 


print x 


print min max(x) 


3.10.3 ”工作 原理 


在 第 1 步 中 , 我 们 创建 了 一 个 随机 数值 的 列表 ,元 素 值 介 于 10 $025 之 间 。 第 2 步 中 ， 
我 们 定义 了 一 个 函数 来 执行 对 给 定 的 输入 进行 最 小 最 大 缩放 ， 定 义 如 下 。 











X scaled = (x-min(x))/ (max(x)-min (x)) 











第 2 步 里 的 函数 就 是 用 来 完成 上 面 的 任务 。 
缩放 后 ， 原 来 给 定 的 输入 值 的 范围 变化 了 ， 经 过 变换 ， 数 值 将 分 布 在 [0,1] 区 间 内 。 
第 3 步 中 ,我们 先 打印 出 原来 的 输入 列表 ， 结 果 如 下 。 























pu 




















[19, 28, 14, I0; 11, 21, .22, 19, 23, 10] 


[0.69, 1.0, 0.31, 0.0, 0.08, 0.85, 0.92, 0.69, 1.0, 0.0] 




















Jr 





请 看 缩放 的 过 程 : 10 原来 是 最 小 的 数 ， 现 在 被 定 为 0.0; 23 原来 是 最 大 的 数 ， 现 在 被 
定 为 1.0。 这 样 ， 我 们 就 将 数值 分 布 缩放 到 [0,1] 区 间 内 。 


3.10.4. 更 多 内 容 


scikit-learn H]MinMaxScaler 函数 提供 了 相同 的 功能 。 
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from sklearn.preprocessing import MinMaxScaler 


import numpy as np 


np.random.seed(10) 
x = np.matrix([np.random.randint(10,25)*1.0 for i in range(10)]) 
X = x.T 


minmax - MinMaxScaler(feature range-(0.0,1.0)) 





print x 
x t — minmax.fit transform(x) 


print x t 


输出 结果 如 下 。 


[19450,.23:0, T14:0;5. 10.07. T1.05 21507 22.05. ES Gy 23.40 ;.- E001 
[0.69, 1.0, 0.31, 0.0, 0.08, 0.85, 0.92, 0.69, 1.0, 0.0] 














示例 中 的 数据 被 缩放 到 了 (0,1) 区 间 ， 实 际 上 这 个 区 间 可 以 被 扩展 到 任意 范围 。 假 如 我 
们 定义 新 的 区 间 范 围 为 nr_ min 到 nr max. 35min max 的 公式 得 做 如 下 修改 。 

















X scaled = (x-min(x))/ (max(x)-min(x)) * (nr max- nr min) + nr min 
Python 的 代码 如 下 。 
import numpy as np 


np.random.seed(10) 


x = [np.random.randint(10,25)*1.0 for i in range (10)] 
def min max range (x, range values): 
return [round( ((xx-min(x))/(1.0*(max(x)-min(x))))*(range \ 


values[1]-range values[0]) + range values[0],2) for xx in x] 


print min max range (x, (100,200)) 











range values 是 一 个 由 两 个 元 素 组 成 的 元 组 ， 第 0 个 元 素 是 新 区 间 下 限 ， 第 1 个 则 
新 区 间 的 上 限 。 调 用 这 个 函数 处 理 输入 的 列表 ， 生 成 的 结果 如 下 所 示 。 



































== 











am 


print min max range (x, (100,200)) 


[169.23, 200.0, 130.77, 100.0, 107.69, 184.62, 192.31, 169.23, 200.0,100.0] 
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最 小 值 10 现在 被 扩大 到 100， 最 大 值 23 则 被 扩大 到 200。 
3.11. 数据 标准 化 


数据 标准 化 将 输入 的 数值 转换 为 平均 值 为 0， 标 准 差 为 1 的 形式 。 
3.11.1 ”准备 工作 


如 果 给 定 一 个 向 量 X， 采 用 下 面 的 等 式 可 以 将 它 转换 为 平均 值 为 0， 标准 差 为 1 的 
EX. 






























































[$$ 标准 化 的 X=x-mean(value)/ standard deviation (X) | 














我 们 来 看 看 如 何在 Python 中 实现 这 个 功能 。 
3.11.2 ”操作 方法 


从 载 入 所 需 的 库 开始 ， 然 后 生成 一 些 输 入 数据 。 
# 加 载 库 


import numpy as np 








from sklearn.preprocessing import scale 


# 生成 输入 数据 
np.random.seed(10) 
x = [np.random.randint(10,25)*1.0 for i in range (10)] 











现在 演示 如 何 进行 标准 化 。 











X centered = scale(x,with mean-True,with std-False) 





x standard = scale(x,with mean-True,with std-True) 


print x 

print x centered 

print x standard 

print "Orginal x mean = $0.2f, Centered x mean = $0.2f, Std dev of \ 
standard x -$0.2f"£(np.mean(x),np.mean(x centered),np.std(x \ 

standard)) 


3113 工作 原理 


我 们 用 np. random 生成 一 些 随机 数据 。 








x = [np.random.randint(10,25)*1.0 for i in range(10)] 





使 用 scikit-learn 的 scale 函数 执行 标准 化 操作 。 





x Centered = scale (x,with mean=True,with std=False) 





x standard = scale (x,with mean=True,with std=True) 























x centered 只 使 用 平均 值 进行 缩放 ， 你 会 注意 到 with mean 参数 被 设置 为 True， 
with std 被 设置 为 False。 




















x standard 则 使 用 平均 值 和 标准 差 两 者 来 对 数据 进行 标准 化 。 























我 们 来 看 看 输出 的 结果 。 
先 看 看 原始 的 数据 。 























[19.0,. 23.0, 14.0, 10:0, 11.0, 21.0, 22.0, 19.0, 23.0, 10.0] 





接着 ， 我 们 打印 x_centered， 它 只 使 用 了 平均 值 。 























[dad D8 3.2 -7.2 726.2 3.8 4.8. 1.8 5.8 -7.2] 




















最 后 ， 我 们 打印 x_standard， 它 同时 使 用 平均 值 和 标准 差 。 




















[ 0.35059022 1.12967961 -0.62327151 -1.4023609 -1.20758855 0.74013492 
0.93490726 0.35059022 1.12967961 -1.4023609 ] 























初始 的 x 平均 值 为 17.20， 标 准 化 之 后 的 x 的 平均 值 为 0.00， 标 准 化 差 为 1.00。 
3.11.4 更 多 内 容 

















| g 


把 上 面 的 公式 分 成 两 个 部 分 : 分 子 部 分 ， 被 称 为 中 心 化 ， 而 整个 公式 称 为 标准 化 。 使 


标准 化 也 可 以 被 推广 到 任意 的 基准 和 分 布 ， 公 式 如 下 。 
标准 化 的 value=(value-level)/spread 
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平均 值 ， 中 心 在 回归 过 程 中 扮演 了 一 个 非常 重要 的 角色 。 如 果 一 个 数据 集 有 两 个 属性 : 
重量 和 高 度 ， 我 们 可 以 将 数据 中 心 化 ， 使 得 自 变量 重量 的 平均 值 变 成 0， 这 样 让 截 距 的 概 
念 容易 理解 : 截 距 可 以 被 理解 为 在 自 变量 的 值 趋 近 于 它们 的 平均 值 时 的 期 望 高 度 。 


3.12 实施 分 词 化 






















































































给 定 一 些 文本 数据 ， 首 先 要 做 的 是 将 文本 进行 分 词 化 ， 以 满足 需要 解决 的 问题 的 
格式 要 求 。 分 词 化 是 一 个 比较 宽泛 的 概念 ， 我 们 可 以 把 文本 分 词 化 成 以 下 几 个 级 别 的 
粒度 。 

。 段落 级 别 。 

。 语句 级 别 。 

。 词 级 别 。 

本 节 中 ， 我 们 会 讨论 语句 级 别 和 词 级 别 的 分 词 化 。 它 们 的 方法 相 类 似 ， 也 很 容易 移植 
到 段落 级 别 或 者 目标 任务 所 需要 的 其 他 粒度 级 别 上 。 

3.12.1 ”准备 工作 

本 节 中 ， 我 们 来 看 看 如 何 执行 语句 级 别 和 词 级 别 的 分 词 化 操作 。 

3.12.2 ”操作 方法 


我 们 先 演 示 语 句 级 别 的 分 词 化 。 
# 加 载 所 需 的 库 


from nltk.tokenize import sent tokenize 

































































from nltk.tokenize import word tokenize 
from collections import defaultdict 


# 1. 用 一 个 简单 的 文本 来 演示 语句 级 别 和 词 级 别 的 分 词 化 操作 
# 这 个 例子 在 第 1 章 中 关于 字典 的 小 节 中 出 现 过 ， 不 同 的 是 加 入 了 一 些 标点 











sentence = "Peter Piper picked a peck of pickled peppers. A peck of \ 








pickled peppers, Peter Piper picked !!! If Peter Piper picked a peck of \ 
pickled peppers, Wheres the peck of pickled peppers Peter Piper picked ?" 











# 2. 使 用 nltk 的 语句 级 别 分 词 器 ， 我 们 将 给 定 的 文本 分 词 化 成 多 个 句子 
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# 同时 用 Print 语句 输出 结果 进行 检验 


sent list = sent tokenize(sentenc 





) 


print "No sentences = $d"$(len(sent list)) 


print "Sentences" 


for 


# 3. 获 取 了 句子 之 后 ， 我 们 接着 从 它们 


sent in sent list: print sent 





word dict = defaultdict(list) 


for 


i,sent in enumerate(sent list) 





抽取 词 


word dict[i].extend(word tokenize(sent)) 


print word dict 


快速 浏览 一 下 NLTK 如 何 实施 语句 级 别 的 分 词 化 ， 代 码 如 下 。 





def sent tokenize(text, language-' 


3.12.3 








中 抽取 句子。 请 访问 以 


第 1 步 ! 


wr 





english'): 


Return a sentence-tokenized copy of *text*, 


using NLTK's recommended sent 


nce tokenizer 








(currently :class:'.PunktSent 
for the specified language). 


nceTokenizer' 


:param text: text to split into sentences 





:param language: the model name in the Punkt corpus 


Wm 


tokenizer = load('tokenizers/punkt/(0j].pickle'.format (language)) 


return tokenizer.tokenize (text) 





工作 原理 















































， 我 们 把 带 有 段落 标识 的 语句 进行 初始 化 ， 它 和 第 1 章 中 与 字典 相关 的 小 节 
里 的 示例 文本 是 一 样 的 。 第 2 步 中 ， 我 们 用 nltk 的 sent tokenize 函数 从 给 定 的 文本 
下 链接 查看 nltk 的 sent tokenize 函数 的 源 代 码 。 





http://www.nltk.org/api/nltk.tokenize.html#nltk.tokenize.sent_tokenize。 


如 你 所 见 ， sent tokenize 加 载 了 一 个 预 置 的 分 词 化 模型 ， 通 过 这 个 模型 把 给 定 的 
文本 分 词 化 并 返回 输出 结果 。 这 个 分 词 化 模型 是 nltk.tokenize.punkt 模块 中 


Punkts 





























ntenceTokenizer 的 实例 。 包 里 








例 。 本 例 ! 








你 可 以 将 语言 参数 设置 为 英语 。 





还 针对 不 同 的 语言 预先 训练 了 多 种 分 词 器 实 
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这 一 步 的 输出 的 结果 如 下 。 


No sentences = 3 


Sentences 





Peter Piper picked a peck of pickled peppers. 
A peck of pickled peppers, Peter Piper picked !!! 
If Peter Piper picked a peck of pickled peppers, Wheres 











the peck of pickled peppers Peter Piper picked ? 


如 你 所 见 ， 语 句 级 分 词 器 将 输入 的 文本 分 成 了 3 个 句子 。 继 续 第 3 步 ， 这 些 句 子 被 继 
续 分 词 化 成 词 。 我 们 使 用 的 是 word tokenize 函数 ， 将 每 个 句子 中 的 词 抽取 出 来 并 保存 
到 一 个 字典 中 ， 这 个 字典 的 键 是 句子 的 编号 ， 值 则 是 这 个 句子 里 的 词 的 列表 。 打 印 语句 的 
输出 结果 如 下 所 示 。 















































defaultdict(«type 'list'», (0: ['Peter', 'Piper', 'picked', 'sa', 
'peck', 'of', 'pickled', 'peppers', '.'], 1: ['A', 'peck', 'of', 
'pickled', 'peppers', ',', 'Peter', 'Piper', 'picked', '!', '!', '!'J, 
2: ['If', 'Peter', 'Piper', 'picked', 'a', 'peck', 'of', 'pickled', 
'peppers', ',', 'Wheres', 'the', 'peck', 'of', 'pickled', 'peppers', 
'Peter', 'Piper', 'picked', '?'])) 
































word tokenize 函数 使 用 了 正则 表达 式 来 将 句子 分 解 为 词 。 要 加 深 理 解 ， 请 访问 以 
下 链接 查看 word tokenize 的 源 代码 。 














http:/www.nltk.org/_modules/nltk/tokenize/punkt.html#PunktLanguageVars.word_tokenize。 
3.124 更 多 内 容 


我 们 介绍 使 用 NLTK 进行 语句 级 别 的 分 词 化 ， 还 有 一 些 其 他 的 方法 可 以 使 




























































































nltk.tokenize.simple 模块 提供 了 1ine tokenize 方法 。 我们 用 它 来 处 理 之 前 同 
样 的 语句 。 
# 加 载 所 需 的 库 
from nltk.tokenize import line tokenize 
sentence = "Peter Piper picked a peck of pickled peppers. A peck of \ 
pickled peppers, Peter Piper picked !!! If Peter Piper picked a peck of \ 











pickled peppers, Wheres the peck of pickled peppers Peter Piper picked ?" 


sent list = line tokenize(sentence) 





print "No sentences = $d"$(len(sent list)) 


126 第 3 章 数据 分 析 





探索 与 争鸣 


print "Sentences" 


for sent in sent list: print sent 


# 加 入 了 新 的 行 特征 
sentence = "Peter Piper picked a peck of pickled peppers. A peck of \ 











pickledMn peppers, Peter Piper picked !!! If Peter Piper picked a peck of \ 





pickledMn peppers, Wheres the peck of pickled peppers Peter Piper picked ?" 








sent list = line tokenize(sentence) 
print "No sentences = $d"$(len(sent list)) 
print "Sentences" 


for sent in sent list: print sent 


输出 结果 如 下 所 示 。 
No sentences = 1 
Sentences 


Peter Piper picked a peck of pickled peppers. A peck of pickled 








peppers, Peter Piper picked !!! If Peter Piper picked a peck of 








pickled peppers, Wheres the peck of pickled peppers Peter 
Piper picked ? 














你 会 发 现 从 输入 中 只 返回 ] cup erg 
现在 修改 一 下 输入 的 文本 以 包含 新 的 行 特征 。 


sentence = "Peter Piper picked a peck of pickled peppers. A peck of \ 





pickledMn peppers, Peter Piper picked !!! If Peter Piper picked a peck of \ 











pickledMn peppers, Wheres the peck of pickled peppers Peter Piper picked ?" 

















增加 了 新 的 行 特征 后 ， 我 们 再 执行 Line_tokenize， 获 得 以 下 输出 














L 
o 


No sentences = 3 


Sentences 





Peter Piper picked a peck of pickled peppers. A peck of pickled 
peppers, Peter Piper picked !!! If Peter Piper picked a 








peck of pickled 








peppers, Wheres the peck of pickled peppers Peter Piper 
picked ? 





你 会 发 现 我 们 新 增 的 行 被 进行 了 分 词 化 ， 现 在 返回 的 结果 是 3 个 句子 。 
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NLTK 手册 的 第 3 章 有 更 多 的 指南 介绍 语句 级 别 和 词 级 别 的 分 词 化 ， 请 访问 以 下 链接 。 
http://www.nltk.org/book/ch03.html - 











3.12.5 参考 资料 





A^ 





: 














B 1:3 "Python 在 数据 科学 中 的 应 用 ”中 12 节 “ 使 用 字典 对 象 ”的 相关 内 容 。 
第 1 章 “Python 在 数据 科学 中 的 应 用 ”中 1.6 节 “ 写 一 个 列表 ”的 相关 内 容 。 





























3.13 ”删除 停 用 词 








在 文本 处 理 过 程 中 ， 我 们 更 关注 那些 能 帮助 我 们 将 给 定 的 文本 和 语 料 中 的 其 他 文本 区 

















别 开 来 的 词 和 短语 ， 它 们 可 以 被 称 为 关键 短语 。 所 有 的 文本 挖掘 应 用 都 必须 找 出 文本 中 的 




















关键 短语 ， 一 个 信息 检索 应 用 也 需要 找 出 关键 短语 来 优化 检索 、 评 佑 检索 结果 ， 文 本 分 类 





系统 也 需要 关键 短语 来 作为 分 类 器 所 需 的 特征 。 





T 











以 下 就 是 我 们 为 什么 要 讨论 停 用 词 的 原因 。 
“有 时 候 , 一 些 很 常见 的 词 在 帮助 选择 文档 匹配 用 户 需 求 方面 几乎 毫 无 价值 , 它们 必须 


























从 词 表 中 彻底 清除 ， 这 些 词 就 称 为 停 用 词 ” 一 (Introduction to Information Retrieval) —— 
Christopher D.Manning、Prabhakar Raghavan 和 Hinrich Schiitze。 














Python 的 NLTK 库 提供 了 一 个 默认 的 停 用 词语 料 给 我 们 使 用 ， 内 容 如 下 。 


>>> from nltk.corpus import stopwords 

>>> stopwords.words('english') 

[u'i', u'me', u'my', u'myself', u'we', u'our', u'ours', u'ourselves', 
u'you', u'your', u'yoursS', u'yourself', u'yourselves', u'he', 

u'him', u'his', u'himself', u'she', u'her', u'hers', u'herself', 
u'it', u'its', u'itself', u'they', u'them', u'their', u'theirs', 
u'themselves', u'what', u'which', u'who', u'whom', u'this', u'that', 
u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be', 
u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', 
u'did', u'doing', u'a', u'an', u'the', u'and', u'but', u'if', u'or', 
u'because', u'as', u'until', u'while', u'of', u'at', u'by', u'for', 
u'with', u'about', u'against', u'between', u'into', u'through', 
u'during', u'before', u'after', u'above', u'below', u'to', u'from', 
u'up', u'down', u'in', u'out', u'on', u'off', u'over', u'under', 
u'again', u'further', u'then', u'once', u'here', u'there', u'when', 


u'where', u'why', u'how', u'all', u'any', u'both', u'each', u'fevw', 
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u'more', u'most', u'other', u'some', u'such', u'no', u'nor', u'not', 
u'only', u'own', u'same', u'so', u'than', u'too', u'very', u's', u't', 
u'can', u'will', u'just', u'don', u'should', u'now'] 

>>> 























你 看 到 的 就 是 英文 中 的 常见 停 用 词 列表 。 
3.13.1 操作 方法 


先 加 载 必需 的 库 ， 然 后 生成 输入 的 文本 。 
# 加 载 所 需 的 库 


from nltk.corpus import stopwords 





from nltk.tokenize import word tokenize 
import string 


text = "Text mining, also referred to as text data mining, roughly \ 
equivalent to text analytics,N 

refers to the process of deriving high-quality information from text. \ 
High-quality information is \ 

typically derived through the devising of patterns and trends through \ 
means such as statistical ^ 








pattern learning. Text mining usually involves the process of \ 
structuring the input text \ 

(usually parsing, along with the addition of some derived linguistic \ 
features and the removal \ 

of others, and subsequent insertion into a database), deriving \ 





patterns within the structured data, \ 
and finally evaluation and interpretation of the output. 'High ^ 





quality' in text mining usually ^ 





refers to some combination of relevance, novelty, and interestingness. \ 
Typical text mining tasks \ 

include text categorization, text clustering, concept/entity \ 
extraction, production of granular \ 

taxonomies, sentiment analysis, document summarization, and entity \ 


relation modeling \ 





(i.e., learning relations between named entities).Text analysis ^ 
involves information retrieval, \ 

lexical analysis to study word frequency distributions, pattern ^ 
recognition, tagging/annotation, ^ 

information extraction, data mining techniques including link and \ 
association analysis, \ 

visualization, and predictive analytics. The overarching goal is, \ 
essentially, to turn text ^ 


into 
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data for analysis, via application of natural language processing ^ 


(NLP) and analytical \ 
methods.A typical application is to scan a set of documents written in \ 


a natural language and ^ 





ith 


r model the document set for predictive classification purposes \ 


or populate a database \ 


or search index with the information extracted." 














现在 演示 删除 停 用 词 的 处 理 过 程 。 








words = word tokenize(text) 


# 工 .获取 mltk 的 英文 停 用 词语 料 的 列 











E 


stop words = stopwords.words('english') 


print "Number of words = $d"$(len(words)) 


# 2 .将 停 用 词 过 滤 掉 


words [w for w in words if w not in stop words] 
print "Number of words,without stop words = $d"$(len(words)) 
words = [w for w in words if w not in string.punctuation] 











print "Number of words,without stop words and punctuations - 


Sd"$ 


3.13.2 





(len(words)) 


工作 原理 

















第 1 步 先 从 nltk 里 加 载 必 需 的 库 。 为 了 得 到 英文 的 停 用 词 列 表 ， 还 得 加 载 相应 的 语 


















































料 。 我 们 还 得 引用 nltk.tokenize 模块 里 的 word tokenize 函数 将 输入 的 文本 分 词 化 
成 词 的 组 合 。 


我 们 的 输入 文本 来 自 维基 百科 里 关于 文本 挖掘 的 介绍 ，i 








访问 以 下 链接 查看 详情 。 





















































http://en.wikipedia.org/wiki/Text mining. 























最 后 使 用 word tokenize 函数 将 这 些 输入 的 文本 进行 分 词 化 , 所 有 分 出 来 的 词 被 保 
存在 一 个 列表 中 。 我 们 来 打印 输出 这 个 词 列表 的 长 度 。 











Number of words = 259 





列表 








有 259 个 词 。 











第 2 步 中 我 们 编译 产生 了 一 个 叫 作 stop words 的 英文 停 用 词 列 表 。 这 一 步 同 时 通过 





















































列表 推导 得 到 一 个 最 终 词 列表 ， 里 面 的 词 都 不 在 之 前 生成 的 停 用 词 列表 中 。 这 样 ， 停 
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就 从 输入 文本 中 被 清除 掉 了 。 我 们 来 看 看 删除 停 用 词 后 的 词 列 表 的 输出 信息 。 






































Number of words,without stop words = 195 














你 会 发 现 ，64 个 词 被 从 输入 文本 中 清除 掉 了 ， 它 们 都 是 停 用 词 。 











3.1333 ”更 多 内 容 
































停 用 词 并 不 仅 限 于 英文 词 ， 它 是 上 下 文 相关 的 ， 依 赖 于 应 用 的 控制 和 你 想 怎 样 定 








制 
































的 系统 。 理 论 上 来 说 ， 如 果 我 们 对 某 些 方面 的 字符 没 兴 趣 ， 那 就 可 以 把 它 列 入 停 用 























请 看 下 面 的 代码 。 


import string 




















words = [w for w in words if w not in string.punctuation] 


print "Number of words,without stop words and punctuations = 


$d"$(len(words)) 
































我 们 执行 了 另 一 个 列表 推导 来 删除 掉 文 本 中 的 标点 ， 现 在 的 输出 结果 如 下 所 示 。 


Number of words, without stop words and punctuations = 156 











i04: 删除 停 用 词 表 是 上 下 文 相关 的 , 也 基于 应 用 的 需 
求 。 如 果 你 在 移动 端 或 者 聊天 室 文 本 中 进行 语义 分 析 应 


NI 


Q 们 对 于 后 续 的 机 器 学 习 应 用 是 良好 的 特征 属性 . 
一 般 而 言 ， 停 用 词 出 现在 文档 中 的 频率 非常 高 ， 因 此 ， 
如 果 有 一 些 其 他 的 词 在 你 的 语 料 中 频频 出 现 ， 根 据 上 


下 文 ， 你 也 可 以 将 它们 添加 到 停 用 词 列表 中 。 


3.13.4 参考 资料 








X 














第 1 章 “Python 在 数据 科学 中 的 应 用 
导 ” 的 相关 内 容 。 


3.14 词 提取 


”中 1.7 节 “ 从 另 一 个 列 








在 这 节 里 ， 我 们 讨论 词 提取 。 








E 


用 ， 表 情 符 是 非常 有 用 的 信息 ， 你 不 能 删除 掉 它 们 ， 它 


第 3 章 “ 数 据 分 析 一 一 探索 与 争鸣 ”中 3.12 节 “ 实 施 分词 化 ”的 相关 内 容 。 





创建 列表 一 一 列 








词 列表 。 








X 
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3.14.1 ”准备 工作 


方 # 

















文本 标准 化 是 一 个 完全 不 同 的 难题 ， 我 们 需要 另辟蹊径 来 解决 它 。 本 节 中 ， 我 们 要 而 



































究 如 何 将 词 转换 成 它们 原本 的 形态 ， 这 样 才能 在 处 理 过 程 中 保持 一 致 。 我 们 从 传统 的 解决 
法 开始 ， 包 括 词 提 取 和 词 形 还 原 。 英语 的 语法 规定 了 词 在 句子 中 的 不 同 用 法 ， 例如,“ 执 






































行 ”正在 执行 ”“ (第 3 人 称 单数 ) 执行 ”标识 的 是 相同 的 动作 ， 但 根据 语法 ， 它 们 在 不 同 
的 句子 中 的 形态 并 不 相同 。 


d fi 






































“ 词 提 取 和 词 形 还 原 的 目标 都 是 为 了 减少 变化 形式 和 一 些 相关 的 派生 形式 , 将 其 恢复 到 




















的 共通 的 形态 。” 一 一 《Introduction to Information Retrieval), Christopher D.Manning、 


Prabhakar Raghavan 和 Hinrich Schütze. 











我 们 来 看 看 如 何 使 用 Python 的 NLTK 库 执行 词 提取 ，NILTK 提供 了 相当 多 的 函数 来 帮 












































助 我 们 方便 快捷 地 执行 这 个 任务 。 





>>> import nltk.stem 
>>> dir(nltk.stem) 


['ISRIStemmer', 'LancasterStemmer', 'PorterStemmer', 'RSLPStemmer', 





'RegexpStemmer', 'SnowballStemmer', 'StemmerI', 'WordNetLemmatizer', 


' builtins ', ' doc ', ' file ', ' name ', ' package ', 





' path ', 'api', 'isri', 'lancaster', 'porter', 'regexp', 'rslp', 
'snowball', 'wordnet'] 


22» 





模块 里 的 函数 列表 内 容 不 少 ， 我 们 关注 的 是 和 词 提 取 相 关 的 ， 如 下 所 示 。 

。 Porter 一 一 波 特 词 提取 器 。 

e Lancaster 一 一 兰 开 斯 特 词 提 取 器 。 

。 Snowball 一 一 雪 球 词 提取 器 。 

Porter 是 最 常用 的 词 提 取 器 ， 它 的 算法 在 词 转换 回 它们 的 词根 形态 时 不 是 很 激进 。 
Snowball 是 Porter 的 改良 版 ， 它 所 需 的 计算 时 间 比 Porter 快 不 少 。 

Lancaster 是 最 激进 的 词 提 取 器 ， 使 用 前 两 种 词 提取 器 时 ， 最 终 的 词 对 于 人 类 还 可 以 阅 
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读 ， 




















而 使 用 Lancaster 则 完全 不 可 读 。 它 也 是 三 者 中 速度 最 快 的 。 
本 节 中 ， 我 们 将 使 用 其 中 的 一 些 功能 来 研究 如 何 对 文本 执行 词 提取 。 






































132 第 3 章 数据 分 析 一 一 探索 与 争鸣 


3.14.2 ”操作 方法 
首先 我 们 得 加 载 必需 的 库 ， 然 后 声明 一 个 数据 集 用 来 演示 词 提取 。 





























# 加 载 库 


from nltk import stem 


F1. 少量 的 输入 文本 ， 用 来 演示 3 种 词 提 取 器 如 何 执行 


input words = ['movies','dogs','planes','flowers',' 'flies', 'fries', 'fry \ 





','weeks', 'planted','running','throttle'] 





i 


下 面 列 出 了 几 种 不 同 的 词 提取 的 算法 。 


$2.Porter 词 提取 
porter = stem.porter.PorterStemmer() 








p words = [porter.stem(w) for w in input words] 
print p words 


1$3.Lancaster 词 提取 

lancaster = stem.lancaster.LancasterStemmer() 

l words = [lancaster.stem(w) for w in input words] 
print 1 words 


$4.Snowball 词 提取 器 
snowball = stem.snowball.EnglishStemmer() 





S words = [snowball.stem(w) for w in input words] 
print s words 


3.14.3 工作 原理 


在 第 1 步 中 ， 我 们 从 nitk 中 加 载 stem 模块 ， 并 创建 了 一 个 词 列表 用 来 词 提取 。 如 
果 你 仔细 观察 ， 你 会 发 现 这 些 词 里 特意 挑选 具有 不 同 后 级 的 形态 ， 例 如 带 “s”“ies”“ed” 
“ing” 等 。 另 外 ， 有 些 词 已 经 是 它们 的 词根 形态 ， 如 “throttle”“fry” 等 。 我 们 就 来 看 看 词 
提取 算法 如 何 处 理 它 们 。 

第 2 步 、 第 3 步 和 第 4 步 都 是 相 类 似 的 ， 分 别 调用 了 Porter. Lancaster 和 Snowball 等 
3 种 词 提 取 器 来 处 理 输入 文本 并 输出 结果 ， 并 使 用 列表 推导 来 存放 这 些 词 的 输入 和 输出 结 
果 。 我 们 来 看 看 打印 输出 的 结果 以 帮助 理解 词 提取 的 效果 。 
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[u'movi', u'dog', u'plane', u'flower', u'fli', u'fri', u'fri',u'week', 


u'plant', u'run', u'throttl'] 




















这 是 第 2 步 产 生 的 输出 结果 ， 对 输入 的 语句 应 用 了 Porter 词 提 取 ， 我 们 能 看 到 原来 带 


着 “ies”“s”“ed”“ing” 等 后 级 的 词 已 经 被 削减 成 它们 的 词根 形态 。 








Movies - movi 
Dogs - dog 
Planes - plane 
Running - 等 等 


有 趣 的 是 “throttte” 被 转换 成 了 “throttl”。 
第 3 步 打印 输出 的 是 Lancaster 的 结果 ， 如 下 所 示 。 

















dr 








[u'movy', 'dog', 'plan', 'flow', 'fli', 'fri', 'fry', 'week', 'plant', 


'run', 'throttle'] 








“throttle” 保 持 了 原样 ， 请 注意 “movies” 发 生 的 变化 。 
类 似 地 ， 第 4 步 输出 的 是 Snowball 产生 的 结果 。 











[u'movi', u'dog', u'plane', u'flower', u'fli', u'fri', u'fri', 


u'week', u'plant', u'run', u'throttl'] 
这 个 输出 结果 和 Porter 的 十 分 相似 。 
3.14.4 更 多 内 容 


这 3 种 算法 都 相当 复杂 ， 研 究 它 们 的 算法 细节 超出 了 本 书 的 范围 。 









































推荐 你 到 网 上 查询 


























这 些 算法 的 更 多 细节 。 
要 了 解 Porter 和 Snowball 词 提取 器 的 更 多 细节 ， 请 参见 : 

















http://snowball.tartarus.org/algorithms/porter/stemmer.html 。 


3.14.5 参考 资料 














导 ” 的 相关 内 容 。 





第 1 “Python 在 数据 科学 中 的 应 用 ”中 1.7 节 “ 从 另 一 个 列表 创建 列表 一 一 列表 推 
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3.15 执行 词 形 还 原 














在 这 一 节 里 ， 我 们 讨论 词 形 还 原 。 


3.15.1 ”准备 工作 














态 努 力 探求 消除 词 的 后 级 的 方法 。 在 上 





词 提取 是 一 个 启发 式 的 过 程 ， 为 了 获得 词根 














一 节 中 ， 我 们 发 现在 消减 派生 词 绥 时 ， 有 时 它 会 将 正 
维基 百科 里 对 派生 模式 的 相关 介绍 ， 请 参见 

















外 的 词 形 进行 删 减 。 


zn 
































http://en.wikipedia.org/wiki/Morphological derivationstDerivational patterns. 






































男 一 方面 ， 词 形 还 原 使 用 了 变形 分 析 和 词 表 来 获得 词 的 词 元 。 它 只 对 词 形 变化 的 结尾 


进行 转换 ， 



































并 从 字典 中 获得 词 的 基本 形态 。 
































维基 百科 里 对 词 形变 化 的 更 多 详情 ， 请 参见 : 




















http://en.wikipedia.org/wiki/Inflection 。 





本 节 里 ， 我 们 将 使 用 NLTK 库 里 的 WordNetLemmatizer. 


3.15.2 





操作 方法 


首先 我 们 得 加 载 必 需 的 库 ， 然 后 和 上 一 节 一 样 ， 准 备 一 段 输入 文本 来 演示 词 形 还 原 。 

















我 们 接着 

















j 下 面 的 方法 实施 词 形 还 原 。 


# 加 载 库 


from nltk import stem 





#1 .少量 的 输入 文本 ， 用 来 演示 第 二 步 中 如 何 进行 词 形 还 原 


input words = ['movies', 'dogs', 'planes', 'flowers','flies','fries','fr\ 





y','weeks','planted','running','throttle'] 


#2. 执行 词 形 还 原 


wordnet lemm = stem.WordNetLemmatizer() 


wn words = [wordnet lemm.lemmatize(w) for w in input words] 


print wn words 
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3.15.5 ”工作 原理 


第 1 步 和 上 一 节 词 提取 中 的 内 容 十 分 相似 ， 提 供 了 一 个 输入 文本 。 第 2 步 里 执行 了 词 
EXER. MHT Wordnet 里 内 置 的 morphy 函数 。 请 参见 





















































https://wordnet.princeton.edu/man/morphy.7WN.html。 
看 一 下 打印 语句 输出 的 结果 。 






































u'movie', u'dog', u'plane', u'flower', u'fly', u'fry', 'fry', 
u'week', 'planted', 'running', 'throttle'] 




































































首先 吸引 我 们 的 是 单词 “movie”， 现 在 它 是 正确 的 形态 ，Porter 及 其 他 的 算法 都 曾 把 
最 后 一 个 字母 “e” 误 删 。 


3.15.4 更 多 内 容 


我 们 来 看 看 使 用 词 形 还 原 工具 的 简单 示例 。 









































>>> wordnet lemm.lemmatize('running') 
'running' 

>>> porter.stem('running') 

u'run' 

>>> lancaster.stem('running') 

'run' 

>>> snowball.stem('running') 

u'run' 












































“running” 这 个 词 理 论 上 基本 形态 应 该 是 “run”， 我 们 的 词 形 还 原 工具 本 应 能 正确 地 完 
成 转换 。 但 是 我 们 看 到 “running” 没有 发 生 任 E 何 变化 ， 而 启发 式 的 词 提取 器 却 能 正确 地 转 
换 ， 那 我 们 的 词 形 还 原 工 具 出 了 什么 问题 呢 ? 


PUT MER n 我 

































































M 们 可 以 通过 向 它 传 递 词 的 POS 标签 来 进行 调整 ， 方 法 
à 和 
>>> wordnet lemm.lemmatize('running','v') 
u'run' 


3.15.5 参考 资料 


第 3 章 “ 数 据 分 析 一 一 探索 和 争鸣 ”中 3.12 节 “ 实 施 分 词 化 ”的 相关 内 容 。 


a 
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3.16 词 袋 模型 表示 文本 

















在 这 节 里 ， 我 们 讨论 如 何 用 词 袋 模型 来 表示 文本 。 
3.16.1 准备 工作 
为 了 使 用 机 器 学 习 来 处 理 文本 ， 我 们 必须 将 文本 转化 为 数值 特征 的 向 量 。 本 节 将 介绍 
词 袋 模型 表示 法 ， 文 本 被 转换 为 数值 型 的 向 量 ， 列 名 是 潜在 的 词 ， 数 值 是 以 下 之 一 。 
。 二 进 制 值 ， 表 示 这 个 词 在 给 定 的 文档 中 存在 /不 存在 。 
。 频率 ， 表 示 这 个 词 在 给 定 的 文档 中 出 现 的 总 次 数 。 
。 TFIDF， 我 们 随后 就 会 介绍 的 一 种 评估 值 。 
词 袋 是 一 种 最 常用 的 的 文本 表示 法 ， 顾 名 思 义 ， 词 的 先后 顺序 被 忽略 了 ， 这 个 词 是 否 
在 语句 中 出 现 才 是 关键 。 它 有 两 个 处 理 流 程 ， 说 明 如 下 。 
1. 对 于 训练 集 里 的 文档 中 的 每 个 词 ， 我 们 给 它 分 配 一 个 整数 ， 并 保存 为 一 个 字典 。 
2. 对 于 每 个 文档 ， 我 们 创建 一 个 向 量 ， 向 量 的 列 是 这 个 词 本 身 ， 它 们 构成 了 特征 项 ， 


这 些 项 的 数值 是 二 进 制 数 、 频 率 或 者 TFIDF。 

3.16.2 ”操作 方法 
首先 我 们 加 载 必需 的 库 ， 然 后 准备 一 个 数据 集 来 演示 词 袋 模型 。 
+ 加 载 库 


from nltk.tokenize import sent tokenize 
from sklearn.featur xtraction.text import CountVectorizer 




































































































































































































































































from nltk.corpus import stopwords 





# 工 .我 们 使 用 3.13 节 “ 删 除 停 用 词 ” 中 曾 使 用 过 的 输入 文本 
text = "Text mining, also referred to as text data mining, roughly \ 
equivalent to text analytics,N 

refers to the process of deriving high-quality information from text. \ 
High-quality information is \ 

typically derived through the devising of patterns and trends through \ 








means such as statistical \ 








pattern learning. Text mining usually involves the process of \ 


structuring the input text \ 
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(usually parsing, along with the addition of some derived linguistic \ 
features and the removal \ 

of others, and subsequent insertion into a database), deriving \ 
patterns within the structured data, \ 

and finally evaluation and interpretation of the output. 'High ^ 
quality' in text mining usually \ 





refers to some combination of relevance, novelty, and interestingness. \ 
Typical text mining tasks ^ 

include text categorization, text clustering, concept/entity \ 
extraction, production of granular \ 

taxonomies, sentiment analysis, document summarization, and entity \ 


relation modeling \ 





(i.e., learning relations between named entities).Text analysis \ 
involves information retrieval, \ 

lexical analysis to study word frequency distributions, pattern \ 
recognition, tagging/annotation, ^ 

information extraction, data mining techniques including link and \ 
association analysis, \ 

visualization, and predictive analytics. The overarching goal is, \ 
essentially, to turn text ^ 

into data for analysis, via application of natural language processing \ 
(NLP) and analytical \ 

methods.A typical application is to scan a set of documents written in \ 
a natural language and \ 





ither model the document set for predictive classification purposes ^ 
or populate a database \ 
or search index with the information extracted." 





我 们 快 进 到 如 何 将 这 些 文本 转化 为 用 词 袋 模型 表示 。 
2 .将 给 定 的 文本 划分 为 句子 


Sentences = sent tokenize(text) 











3. 生 成 特征 向 量 的 代码 
count v = CountVectorizer() 
tdm = count v.fit transform(sentences) 








在 创建 词 的 特征 索引 映射 时 ， 我 们 可 以 通过 停 用 词 列表 将 一 些 词 忽略 掉 
stop words = stopwords.words('english') 

count v sw = CountVectorizer (stop words-stop words) 

sw tdm = count v.fit transform(sentences) 


+ 使 用 ngrams 方法 
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count v ngram = CountVectorizer(stop words-stop words,ngram range-(1,2)) 


ngram tdm = count v.fit transform(sentences) 


3.16.3 ”工作 原理 


S e Cm e Me n. 二 的 输入 文本 。 第 2 
步 里 采用 语句 级 的 分 词 器 将 给 定 的 文本 分 词 化 为 句子 。 这 里 ， 我 们 把 每 个 句子 当 作 一 个 文 
档 来 进行 处 理 。 
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随 着 应 用 的 不 同 ， 文 档 的 概念 也 非 国 定 不 变 。 本 例 中 ， 
我 们 把 语句 当 作 一 个 文档 。 另 一 些 场景 下 , 我们 可 以 把 
- 段落 当 作 一 个 文档 。 在 网 页 挖 气 中 , 一 个 单独 的 页 面 也 
Q : 能 当 作 一 个 文档 ， 甚 至 这 个 网 页 里 被 “<p>” 标 签 分 隔 
开 的 一 部 分 也 可 以 被 当成 一 个 文档 。 
>>> len(sentences) 


6 
>>> 


打印 语句 列表 的 长 度 ， 我 们 得 到 的 结果 是 6， 这 说 明 本 例 中 我 们 有 6 个 文档 。 


第 3 步 中 ， 我 们 从 scikitlearn.feature extraction 文本 处 理 包 中 导入 了 
CountVectorizer， 它 转换 一 些 文档 本 例 中 是 一 个 句子 的 列表 一 一 成 为 矩阵 ， 行 是 
句子 ， 列 是 这 些 句 子 中 的 词 ， 这 些 词 的 次 数 被 保存 在 这 些 单元 格 的 数值 中 。 

我 们 将 使 用 CountVectorizer 把 这 个 句子 列表 转换 为 特征 词 -文档 矩 阵 。 我 们 来 逐 
个 分 析 输 出 的 结果 : 先 请 看 count v， 它 是 一 个 CountVectorizer WR, RIEN 
部 分 曾 提 到 过 要 构建 一 个 包含 所 有 给 定 文本 中 的 词 的 字典 ，count v Hj) vocabulary 属 
性 给 我 们 提供 了 词 的 列表 以 及 与 之 关联 的 IDs 或 者 特征 值 索 引 ， 如 图 3-17 所 示 。 

使 用 vocabulary_ 属 性 可 以 找 回 字 典 的 内 容 ， 它 是 作为 特征 指标 的 词 的 映射 。 我 们 
也 可 以 使 用 下 面 这 个 函数 来 获取 词 〈 特 征 项 ) 的 列表 。 
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>>> count v.get feature names () 





























接着 来 看 tqm， 这 是 我 们 用 Countvectorizer 转换 给 定 的 输入 之 后 得 到 的 对 象 。 














>>> type(tdm) 
«class 'scipy.sparse.csr.csr matrix'» 
>>> 








>>> count v.vocabulary 

(u'nlp': 65, u'named': 63, u'concept': 16, u'interpretation': 49, 
3, u'classification': 13, u'text': 107, u'into': 50, u'within': 11 
27, u'structuring': 98, u'via': 116, u'through': 109, u'statistica 
: 101, u'quality': 81, u'linguistic': 56, u'clustering': 14, u'vi 
117, u'categorization': 12, u'from': 37, u'to': 110, u'addition': 
d': 97, u'relations': 86, u'removal': 88, u'granular': 39, u'entit 


nally': 34, u'production': 79, u'tagging': 103, u'relevance': 87, 

u'include': 42, u'mining': 60, u'combination': 15, u'means': 58, u 
u'link': 57, u'devising': 21, u'parsing': 72, u'with': 118, u'asso 
u'extracted': 31, u'document': 23, u'word': 120, u'overarching': 7 
u'as': 9, u'either': 25, u'analytical': 4, u'including': 43, u'ref 
and': 6, u'predictive': 76, u'set': 94, u'methods': 59, u'scan': 9 
77, u'the': 108, u'is': 52, u'some': 95, u'purposes': 80, u'roughl 





图 3-17 


如 你 所 见 ，tdm æ ARMEER R, HE T ARMEER S enis. IAN: 
http://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.sparse.csr matrix.html - 
我 们 可 以 观察 这 个 对 象 的 形态 ， 也 可 以 检视 它 的 一 些 元 素 ， 详 情 如 图 3-18 所 示 。 








»»» tdm.get shape() 
(6, 122) 
»»» tdm.indices 
array([2, 
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>>> tdm.data 
array([1, 


É|poeuvbst£e 
Sv ee o9 v oS 
al a 


"9 o9 o o9 s 
MN) UJ w wm N WwW 


- 
- 
- 
` 


-` 
` - M 


-~ 
- 
sw 


1, 
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»»» tdm.indptr 
array([ e, 14, 15, 17, 
20, 34, 36, 
40, 48, 50, 
53, 67, 69, 
74, 89, 
92, 109, 
114, 
130, 
144, 
169, 


3, 2, 
1], dtype=int64) 
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这 个 矩阵 式 的 形态 是 6X122 的 ， 对 应 着 我 们 的 6 个 文档 ， 即 上 下 文中 的 句子 ， 还 有 词 























表 中 收集 的 122 个 词 。 请 注意 这 是 个 稀疏 和 矩阵， 也 就 是 说 所 有 的 句子 并 不 会 都 出 现 所 有 的 



































词 ， 大 量 的 单元 格 的 条 目 值 为 0， 因 此 ， 我 们 只 打印 输出 那些 非 0 的 条 目 。 


























从 tam.ingptr 中 我 们 知道 文档 1 的 条 目 在 tdm.data fll tdm. indices 数据 组 中 


























FERM 0 开始 ， 到 18 结束 。 





>>> tdm.data[0:19] 

array([4,.2, Ly 35 ry by dy P by WXzcbeUES Xy xls 

dtype-int64) 

>>> tdm.indices[0:17] 

array([107, 60, 2, 83, 110, 9, 17, 90, 28, 5, 84, 108, 77, 67, 20, 40, 81]) 
>>> 


我 们 可 以 用 下 面 的 方式 来 进行 验证 。 








>>> count v.get feature names () [107] 
u'text' 
>>> count v.get feature names () [60] 


u'mining' 


我 们 可 以 看 到 107， 代 表 了 单词 “text” 在 第 1 个 句子 中 出 现 了 4 次。 类似 地 ,“mining” 

















出 现 了 一 次 。 就 这 样 ， 本 节 里 ， 我 们 将 给 定 的 文本 转换 成 了 一 个 特征 向 量 ， 特 征 项 就 是 词 。 























3.16.4 更 多 内 容 












































进行 讨论 。 























CountVectorizer 类 还 有 很 多 其 他 特性 用 来 将 文本 转换 为 特征 向 量 ， 我 们 对 其 中 的 一 些 
我 们 来 看 看 部 分 特性 。 

>>> count v.get params() 

('binary': False, 'lowercase': True, 'stop words': None, 'vocabulary': 
None, 'tokenizer': None, 'decode error': u'strict', 'dtype': «type 


'numpy.int64'», 'charset error': None, 'charset': None, 'analyzer': 
u'word', 'encoding': u'utf-8', 'ngram range': (1, 1), 'max df': 1.0, 
'min df': 1, 'max features': None, 'input': u'content', 'strip 
accents': None, 'token pattern': u'(?u)\\b\\w\\w+t\\b', 'preprocessor': 





None] 
>>> 
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第 1 个 是 binary 参数 ， 它 被 设置 为 False， 如 果 把 它 设 为 True， 最 后 的 矩阵 将 不 
统计 元 素 个 数 ， 特 征 项 的 值 可 以 为 1 或 者 0， 取 决 于 它 是 否 出 现在 文档 中 。 


默认 情况 下 ，lowercase 被 设置 为 True， 这样 输入 的 文本 在 被 映射 成 特征 指标 之 前 
会 先 转 为 小 写 。 


在 创建 词 到 特征 指标 的 映射 时 ， 我 们 可 以 用 停 用 词 列 表 将 一 些 词 忽略 掉 ， 请 看 下 面 的 示例 。 













































































from nltk.corpus import stopwords 
stop words = stopwords.words('english') 


count v = CountVectorizer(stop words-stop words) 





sw tdm = count v.fit transform(sentences) 





如 果 要 打印 出 已 经 建 好 的 词 表 大 小 ， 请 使 用 下 面 的 代码 。 


>>> len(count v sw.vocabulary ) 
106 
>>> 


和 之 前 看 到 的 122 不 同 ， 现 在 我 们 的 词 表 大 小 为 106。 

我 们 也 可 以 给 CountVectorizer 设置 一 个 固定 的 词 表 ， 最 后 生成 的 稀疏 矩阵 的 列 
只 能 来 自 这 个 固定 的 表 中 ， 任 何不 在 词 表 中 的 词 将 被 忽略 。 
第 2 个 有 趣 的 参数 是 ngram_range， 你 可 能 注意 到 元 组 (1,1) 被 传递 给 它 。 这 是 为 
了 确保 只 有 一 个 字 或 者 词 被 用 来 创建 特征 项 集合 。 例 如 ， 这 个 参数 可 以 被 改 为 (1,2)， 这 
会 让 CountVectorizer 创建 单字 和 多 字 ， 请 看 下 面 的 代码 和 输出 。 









































































































































count v ngram = CountVectorizer(stop words=stop words,ngram range-(1,2)) 
ngram tdm = count v.fit transform(sentences) 














现在 特征 项 集合 中 既 有 单字 ， 也 有 多 字 。 
请 读者 自行 探索 其 他 的 参数 ， 这 些 参数 的 文档 在 以 下 链接 可 以 查看 。 


http://scikit-learn.org/stable/modules/generated/sklearn.feature extraction.text. CountVectori 
zer.html 


3.1605 参考 资料 


第 1 “Python 在 数据 科学 中 的 应 用 ”中 有 关 使 用 字典 的 相关 内 容 。 
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数据 分 析 一 一 探索 与 争鸣 
“数据 分 析 一 一 探索 和 争鸣 ”中 3.13 节 “ 删 除 停 用 词 ” 3.14“ 词 提取 ” 3.15 














原 ” 等 相关 内 容 。 


3.17. 计算 词 频 和 反 文 档 频率 


vo 


E， 我 们 讨论 如 何 计算 词 频 和 反 文档 频率 。 





在 这 节 


3.17.1 ”准备 工作 


出 现 次 数 可 以 作为 很 好 的 特征 值 ， 但 也 存在 一 些 问 题 。 假 设 我 们 有 4 篇 不 一 样 长 度 的 
文档 ， 在 篇 幅 较 长 的 文档 里 的 词 比 在 较 短 篇 幅 文 档 里 的 词 可 能 获得 更 高 的 权重 。 因 此 ， 我 



















































































们 不 简单 地 直接 采用 出 现 次 数 ， 而 是 将 它 进 行 归 一 化 ， 把 一 个 词 出 现 的 次 数 除 以 这 个 文档 





























中 所 有 的 词 的 总 数 ， 这 样 产生 的 度量 值 称 为 词 频 。 词 频 也 并 非 没有 缺点 : 一 些 词 出 现在 大 





多 数 文档 中 ， 


























这 些 词 在 特征 向 量 中 占 了 较 大 权重 ， 但 它们 的 信息 量 不 足 ， 难 以 区 别 语 料 中 

















的 文档 。 在 引入 新 的 度量 值 来 避免 上 述 问题 之 前 ， 我 们 先 来 定义 文档 频率 。 和 词 频 类 似 ， 








为 了 体现 文档 在 局 部 的 重要 性 ， 我 人 





























] 计 算 一 个 称 为 文档 频率 的 评估 值 ， 方 法 是 将 文 内 出 现 























过 某 个 词 的 文档 总 数 除 以 语 料 中 的 文档 总 数 。 



































我 们 最 终 采用 的 度量 值 是 由 词 频 和 文档 频率 的 倒数 组 成 ， 这 就 是 所 谓 TDIDF fü. 
3.17.2 ”操作 方法 


首先 我 们 加 载 必 需 的 库 ， 然 后 准备 一 个 数据 集 来 演示 TFIDF 的 应 用 。 


+ 加 载 库 























from nltk.tokenize import sent tokenize 


from 





from 


COXU = 


refers 





ltk.corpus import stopwords 





n 
from sklearn.feature_extraction.text import TfidfTransformer 
S 





klearn.feature extraction.text import CountVectorizer 


1 .创建 一 个 和 上 一 节 中 一 样 的 文档 





"Text mining, also referred to as text data mining, roughly \ 


equivalent to text analytics,N 


to the process of deriving high-quality information from text. \ 


High-quality information is \ 
typically derived through the devising of patterns and trends through \ 


means such as statistical \ 








pattern learning. Text mining usually involves the process of \ 


3.17 


structuring the input text WV 


(usually parsing, along with the addition of some derived linguistic \ 


features and the removal \ 
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of others, and subsequent insertion into a database), deriving \ 


patterns within the structured data, \ 


and finally evaluation and interpretation of the output. 'High ^ 





quality' in text mining usually ^ 





refers to some combination of relevance, novelty, 


Typical text mining tasks ^ 


and interestingness. 


include text categorization, text clustering, concept/entity \ 


extraction, production of granular \ 


taxonomies, sentiment analysis, document summarization, and entity \ 


relation modeling \ 





(i.e., learning relations between named entities) 


involves information retrieval, \ 


.Text analysis \ 


lexical analysis to study word frequency distributions, pattern ^ 


recognition, tagging/annotation, \ 


information extraction, data mining techniques including link and \ 


association analysis, \ 


visualization, and predictive analytics. The overarching goal is, \ 


essentially, to turn text ^ 


N 


into data for analysis, via application of natural language processing \ 


(NLP) and analytical \ 


methods.A typical application is to scan a set of documents written in \ 


a natural language and \ 


ither model the document set for predictive classification purposes ^ 





or populate a database \ 
or search index with the information extracted." 


现在 来 计算 词 频 和 反 文 档 频率 。 
# 2 .抽取 句子 


Sentences = sent tokenize(text) 





* 3 .创建 一 个 矩阵 保存 词 频 和 文档 频率 


stop words = stopwords.words('english') 





count v = CountVectorizer(stop words-stop words) 


tdm = count v.fit transform(sentences) 


# 4. 计 算 TFIDF 值 
tfidf = TfidfTransformer() 
tdm tfidf = tfidf.fit transform(tdm) 
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3.17.3 ”工作 原理 


第 1、 第 2 和 第 3 步 和 上 一 节 中 是 一 样 的 。 我 们 来 看 第 4 步 ， 在 这 步 里 ， 第 3 步 的 输 
出 被 传递 过 来 计算 TFIDF 值 。 





>>> type(tdm tfidf) 
«class 'scipy.sparse.csr.csr matrix'» 
>>> 


tdm tfidf 是 一 个 稀 朴 矩阵 对 象 ， 现 在 用 indices. data 和 indptr 等 来 看 看 这 
些 矩 阵 的 内 容 ， 如 图 3-19 所 示 。 


>>> tdm tfidf.data 
array([ 0.54849062, 9.26764689， 20.21947428, 20.26764689, 20.18529527, 
0.21947428, 20.31756793, 20.15878397, 20.18529527, 20.26764689, 
0.21947428, 30.15878397, 20.21947428, 20.26764689, 20.33332883, 
0.33332883, 30.33332883, 0.23076769, 20.27333441, 0.27333441, 
0.33332883, 20.27333441, 20.19775038, 20.23076769, 20.33332883, 
0.27333441, 30.19811475, 20.32491385, 20.20299896, 20.19811475, 
0.19811475, 30.19811475, 20.19811475, 20.16245693, 20.16245693, 
0.19811475, 20.19811475, 20.19811475, 20.11753339, 20.19811475, 
0.16245693, 20.19811475, 20.19811475, 20.19811475, 20.19811475, 
06.19811475, 20.19811475, 20.16245693, 20.16245693, 20.16245693, 
0.11753339, 20.19811475, 20.19811475, 20.31177054, 20.19478731, 
0.38020134, 20.31177054, 0.26321811, 20.38020134, 0.22555792, 
0.38020134, 20.26321811, 20.38020134, 20.12927948, 20.12927948, 
0.10601102, 30.26493333, 20.12927948, 20.12927948, 20.12927948, 
0.12927948, 20.12927948, 20.12927948, 20.12927948, 20.12927948, 
0.12927948, 20.12927948, 0.12927948, 20.12927948, 20.10601102, 
0.10601102, 20.12927948, 20.12927948, 20.15339247, 20.12927948, 
0.12927948, 20.10601102, 20.10601102, 20.15339247, 20.12927948, 
0.12927948, 20.12927948, 20.12927948, 20.25855896, 20.25855896, 
0.10601102, 20.12927948, 20.07669623, 20.12927948, 
0.12927948, 20.12927948, 20.12927948, 20.10601102, 
0.15746858, 20.15746858, 20.12912649, 20.15746858, 
0.31493717, 20.15746858, 0.15746858, 20.15746858, 
0.15746858, 20.12912649, 20.15746858, 20.15746858, 20.15746858, 
0.31493717, 20.15746858, 20.15746858, 20.31493717, 20.09341968, 
0.15746858, 20.15746858, 0.15746858, 20.15746858, 20.15746858, 
0.15746858, 20.12912649, 20.12912649, 20.09341968, 20.15746858, 
0.31493717, 20.15746858, 90.12912649]) 
»»» tdm tfidf.indices 


»»» tdm tfidf.indptr 
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这 些 数据 显示 了 数值 ， 其 中 没有 词 出 现 的 次 数 ， 而 只 有 归 一 化 后 的 词 的 TFIDF 值 。 
3.17.4 更 多 内 容 
同样 地 ， 我 们 可 以 通过 研究 传递 的 参数 更 深入 地 钻研 TFIDF。 















































>>> tfidf.get params() 
('use idf': True, 'smooth idf': True, 'sublinear tf': False, 'norm':u'12') 


222 























这 些 参数 的 文档 可 以 在 以 下 链接 查看 ， 请 参见 : 
http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransfor 


mer.html. 
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企 这 一 童 上 


4.1 


Ls» 
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EE， 我 们 将 探讨 以 下 主题 。 


抽取 主 成 分 
使 用 核 PCA 





























j 奇 异 值 分 角 








| 取 















































Ac 
简介 




















MN 














MN 





征 的 数据 的 时 























>q 




















E， 我 们 需要 


随机 映射 给 数据 降 维 
JEH AERES f (Non-negative Matrix Factorization, NMF) 分 解 特征 矩阵 


特征 











各 介绍 关于 降 维 的 多 种 途径 。 上 一 章 里 ， 我 们 学 习 了 如 何在 数据 中 探索 出 它 的 特 


























正 使 之 更 有 应 用 意义 ， 但 只 限于 讨论 二 元 变量 的 数据 。 想 象 一 下 ， 面 对 具有 成 百 上 和 干 个 特 
吴 ， 该 怎么 从 如 此 高 维 的 数据 里 分 析出 数据 特征 昵 ? 元 服 这 些 数据 带 来 的 困 
些 高 效 的 工具 。 


















































现在 ,到 处 都 是 高 维 数据 。 假 定 要 给 一 个 中 等 规模 的 电子 商务 网 站 开发 商品 推荐 引擎， 


























即使 只 有 数 干 种 商品 ， 变 量 的 数量 也 多 得 惊人 。 生 物 学 是 男 一 个 高 维 数据 的 应 用 领域 ， 基 





























因 表 达 式 




















包含 着 数 以 万 计 维 度 的 微 阵列 数据 集 。 





























如 果 你 当前 的 任务 是 探索 数据 或 者 给 算法 准备 数据 ， 超 高 的 维度 一 一 常 第 被 叫 作 维 度 















































灾难 ， 是 你 的 拦路 虎 。 我 们 需要 高 效 的 方法 来 处 理 这 些 问 题 。 此 外 ， 随 着 数据 维度 的 升 高 ， 

















现 有 的 i 
































秆 多 数据 挖掘 外 








法 























的 复杂 度 呈 指数 增长 。 因 此 ， 面 对 不 断 增 长 的 维度 ， 一 些 算 法 无 























法 进行 计算 ， 在 许多 应 用 






































不 再 适用 。 























据 中 的 变量 ， 其 二 


AE T E 





MA QA ce 这 样 ， 
理 较 低 维度 的 数据 ， 而 数据 日 


降 维 技术 在 降低 维度 
里 ， 算 法 的 运行 时 间 将 大 幅 ; 
下 来 ， 获得 的 结果 是 原始 数据 空 m d E 8X: 
二 是 在 新 的 投射 空间 : 






















































































骨 生 了 多 种 降 维 技术 ， 我 们 的 数据 一 般 都 是 矩阵 ， 行 是 实例 ， 





AREE AHEH 




















书 前 面 的 章节 里 











阵 来 保存 数据 。 例 如 在 iris 数据 
































实例 就 是 用 行 来 








包含 了 可 以 解释 交 
B 和 C 的 线性 组 


a de 
正 交 ， 如 主 成 分 分 析 ; 而 另 一 


请 做 好 准备 ， 我 们 将 在 本 章 学 习 使 用 这 


4.2 抽取 主 成 分 


























JA] 
一 种 无 监督 方法 。 
[NE t: LUE 




















图 4-1. 





、 xl. x2 的 散 点 
这 个 变化 的 方向 。 


9 括 伦 莹 和 花 斩 的 宽度 及 长 度 ，i 


























UM: 假定 A 
E 阵 C 包含 了 变化 的 量 















































— } 法 要 求 基 础 H 量 













































































图 ， 使 
量 x1、x2 i iE 我 们 要 找 出 如 蓝 色 线条 






































代表 的 向 量 来 表 万 








x mA 的 向 量 。 的 是 将 数据 维 














我 们 要 使 用 特征 












































方差 来 衡量 数据 分布 了 散布 情况 ， 不 过 我 们 看 的 示例 是 








前 面 的 章节 








Ls 














在 多 维 的 场景 里 







































































标准 差 对 其 炎 














和 矩阵， 对 应 于 两 个 变量 
在 同一 时 间 的 变化 。 











量 在 同一 个 方向 - 
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在 降 维 后 的 特征 空 














的 结构 被 保留 














其 一 是 不 要 算 改 原始 数 














分 分 析 (Principal Component Analysis，PCA)， 它 
量 问题 ，PCA 在 降 维 时 内 有 很 小 的 信息 
名 大 部 分 变化 ， 也 就 是 数据 分 布 的 方向 被 最 大 程度 地 保留 下 来 。 我 1 


HA, fet d 
[来 看 看 

















列 是 特征 。 本 
下 里 ， 高 尾 花 或 者 说 数 
这 些 作为 矩阵 的 列 。 


B 和 C 的 乘积 ， 和 矩阵 B 中 
FRKA A 就 可 以 表达 为 























度 从 二 降 为 一 。 


具 来 找到 这 条 蓝 线 代表 的 向 量 。 








] PCA 的 目的 是 捕 
































性 表示 为 矩阵 ， 专业 名 词 是 协 方差 矩阵 ， 
E 阵 。 本 例 中 ， 它 是 一 个 2X2 的 
上 的 移动 程度 ， 或 者 说 
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执行 特征 值 分 解 的 时 候 ， 先 得 获得 协 方差 矩阵 的 特征 向 量 和 特征 值 。 主 特征 向 量 ， 也 
就 是 具有 最 大 的 特征 值 的 向 量 ， 指 出 了 原始 数据 的 最 大 变化 方向 。 

在 本 示例 中 ， 它 就 是 图 中 蓝 线 表示 的 向 量 。 我 们 把 输入 数据 投射 到 这 个 向 量 上 ， 就 可 
以 降低 维 数 。 









































一 个 数据 集 (nxm), An 个 实例 ，m 个 维度 ，PCA 将 
AA 它 投射 成 一 个 小 得 多 的 子 空间 (nxd)， 其 中 de«m, 值 
得 注意 的 是 PCA 的 计算 代价 非常 高 昂 。 
PCA 可 以 用 在 协 方 差 和 相关 和 矩阵 上 。 请 注意 ， 如 果 对 不 均衡 缩放 的 数据 集 的 协 方差 矩 
阵 采用 PCA 进行 处 理 ， 得 到 的 结果 可 用 性 可 能 不 高 。 有 好 奇 心 的 读者 可 以 阅读 由 Bernard 
Flury 所 著 的 《A First Course in Multivariate Statistics》 中 “在 PCA 中 使 用 相关 或 协 方差 窍 
阵 ” 的 相关 主题 。 请 参见 : http://www.springer.com/us/book/9780387982069。 


42. ”准备 工作 

我 们 使 用 iris 数据 集 来 学 习 如 何 高 效 使 用 PCA 进行 降 维 ， 这 个 数据 集 包含 了 3 类 共计 
150 条 音 尾 花 的 测量 值 。 

iris 数据 集 里 的 3 个 类 别 如 下 所 示 。 

e. Ili SÉ. 






















































































。 人 花 葛 的 长 度 〈 厘 米 )。 
。 人 论 莹 的 宽度 (厘米)。 
。 ARIKE JEX). 
。 ERRER JEX). 
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能 用 两 个 列 而 不 是 4 个 列 来 表示 数据 的 变化 吗 ? 我 们 的 目标 是 降低 数据 的 维度 ， 在 本 
例 中 ， 对 应 的 实例 有 4 个 列 。 假 设 我 们 给 一 个 新 的 实例 构建 一 个 分 类 器 以 预测 它 属 于 哪 类 



































花 ， 我 们 能 使 用 降 维 空间 里 的 实例 来 完成 这 个 任务 吗 ? 我 们 能 名 























后 继续 保持 分 类 器 的 恨 好 精度 吗 ? 
PCA 通过 以 下 步骤 来 完成 目标 。 
1. 将 数据 集 标 准 化 成 均值 为 0。 
2， 找 出 数据 集 的 相关 矩阵 和 单位 标准 偏差 值 。 
3. 将 相关 矩阵 分 解 成 它 的 特征 向 量 和 值 。 
4. 基于 降序 的 特征 值 选择 Top-N 特征 向 量 。 
5. 投射 输入 的 特征 向 量 和 矩阵 到 一 个 新 的 子 空间 。 


4.2.2 ”操作 方法 






































































































































E 把 列 的 数量 从 4 降 为 2 之 























我 们 先 加 载 必 需 的 库 ， 然 后 调用 scikit-learn FÉ 








数据 集 。 


import numpy as np 

from sklearn.datasets import load iris 
from sklearn.preprocessing import scale 
import scipy 

import matplotlib.pyplot as plt 


# WR Iris 数据 集 
data = load iris() 
x — data['data'] 











BER 











有 具 函 数 load iris 获得 
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y = data['target'] 


因为 PCA 是 一 种 无 监督 的 方法 ， 我 们 无 需 使 用 目标 变量 y 
对 数据 进行 缩放 ， 使 均值 为 0， 标准 差 为 1 


X S = Sscale(x,with mean-True,with std-True,axis-0) 




















iE XE 


x c = np.corrcoef(x s.T) 











MM AE e P FR EY ARAE (RC ARAE T8] E 


eig val,r eig vec = scipy.linalg.eig(x c) 








print 'Eigen values Mn$s'$(eig val) 


print 'Mn Eigen vectors WMn$s'£(r eig vec) 


选择 最 前 两 个 特征 向 量 


w — r eig vec[:,0:2] 





用 合适 的 特征 向 量 将 原来 四 维 的 数据 集 降 为 二 维 。 


x rd = x s.dot (w) 

















ER 








画 出 新 的 二 维 的 散 点 


plt.figure(1) 





plt.scatter(x rd[:,0],x rd[:,1],c-y) 
plt.xlabel("Component 1") 
plt.ylabel("Component 2") 


























现在 我 们 先 对 数据 进行 标准 化 ， 使 得 平均 值 为 0， 标 准 差 为 1， 然 后 调用 NumPy 的 
corrcoef 函数 来 找到 相关 和 矩阵 


S = scale(x,with mean-True,with std-True,axis-0) 























o 


np.corrcoef(x s.T) 

















接着 ， 我 们 进行 特征 值 分 解 ， 并 将 wis 的 数据 投射 到 前 两 个 主 特征 向 量 上 。 最 后 ， 把 
降 维 后 的 数据 集 图 形 绘制 出 来 。 


eig val,r eig vec = scipy.linalg.eig(x c) 
































print 'Eigen values Mn$s'$(eig val) 
print 'Mn Eigen vectors WMn$s'£(r eig vec) 
# 选择 前 两 个 特征 向 量 


w — r eig vec[:,0:2] 








# 用 合适 的 特征 向 量 将 原来 四 维 的 数据 集 降 为 二 维 
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x rd = x s.dot (w) 





# 画 出 新 的 二 维 的 散 点 图 


plt.figure(1) 











plt.scatter(x rd[:,0],x rd[:,1],c-y) 
plt.xlabel("Component 1") 
plt.ylabel("Component 2") 





























这 里 使 用 了 scale 函数 ,， 它 可 以 完成 中 心 化 、 缩 放 和 标准 化 等 功能 : 中 心 化 将 单个 的 
值 减 去 平均 值 ， 缩 放 是 将 每 个 数值 除 以 变量 的 标准 差 ， 最 后 标准 化 是 先 中 心 化 然后 进行 缩 
放 。 搭 配 变 量 with_mean 和 with_std， 国 数 scale 执行 了 全 部 3 种 归 一 化 技术 。 
423 工作 原理 


iris 数据 集 有 4 个 列 ， 虽 然 不 算 多 ， 但 是 足够 用 来 说 明 我 们 的 目的 : TE iris 数据 集 从 四 
维 降 为 二 维 ， 并 保留 数据 中 的 全 部 信息 。 
使 用 scikit-learn 中 的 函数 load_iris, 我 们 可 以 方便 地 将 数据 加 载 到 变量 x 和 
y 中 ，x 是 一 个 矩阵 ， 检 视 它 的 形态 ， 结 果 如 下 。 

























































































>>>x.shape 
(150, 4) 
>>> 








将 数据 矩阵 x 缩放 成 平均 值 为 0, 标准 差 为 1。 经 验 法 则 告诉 我 们 ,如果 数据 中 所 有 的 
列 尺度 都 一 致 ， 度 量 单位 相同 ， 就 没有 必要 进行 缩放 。 这 样 可 以 让 PCA 捕捉 到 最 大 变化 的 
基本 单位 。 

















































































































x S = scale(x,with mean-True,with std-True,axis-0) 








接着 为 输入 数据 构建 相关 矩阵 。 


corr(X, pX) 4 基 百 科 。 


我 们 用 sciPy 库 来 计算 矩阵 的 特征 值 和 特征 向 量 ， 打 印 输出 这 两 者 。 






































print Eigen values WMn$s$(eig val) 





print Mn Eigen vectors Mn$s$(r eig vec) 











输出 结果 如 图 4-2 所 示 。 
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深入 到 


EAR 





Eigen values 
[ 2.9108180840.j 0.9212209340.j 209.14735328410.j 0.0206077140.j] 


Eigen vectors 
[[ 0.52237162 -0.37231836 -0.72101681 0.26199559] 
[-89.26335492 -0.92555649 20.24203288 -0.12413481] 
[ 6.58125401 -0.02109478 20.14089226 -0.80115427] 


[ 06.56561105 -0.06541577 20.6338014 





8.52354627]] 





图 








4-2 

















本 例 中 ， 特 征 值 以 降序 输出 。 关 键 问题 在 于 ， 我 们 该 选择 几 个 成 分 呢 ? 稍 后 我 们 会 介 
绍 一 些 选择 成 分 数量 的 方法 。 





你 也 看 到 了 ， 我 们 














只 选择 了 右边 的 特征 向 量 中 的 前 两 列 。 在 变量 y 上 保留 下 来 的 成 分 


所 拥有 的 鉴别 能 力 可 以 很 好 地 测试 出 多 少 信息 或 变化 被 留存 在 这 些 数据 里 了 。 
































我 们 将 数据 投射 到 降 维 后 的 维度 上 。 
































最 后 ， 在 x 轴 和 y 轴 上 绘制 出 主要 成 分 ， 并 根据 目标 变量 给 它们 区 分 颜色 ， 如 图 4-3 
所 示 。 
1.5 
1.0 e ° 
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-1.0 ` j 
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Component 1 
E] 4-3 











你 会 发 现成 分 1 和 成 分 2 fies Xn d 85 FÉAER] 3 个 类 别 。 这 样 , 我们 就 用 PCA 有 效 地 
将 维度 从 4 降 为 2， 并 保持 了 区 分 高 尾 花 不 同 的 类 别 实例 的 能 


424 更 多 内 容 


之 前 我 们 提 到 


要 介 

















绍 几 个 帮助 我 们 确定 该 选择 多 少 成 分 的 方法 。 这 个 小 节 里 ， 我 们 总 
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值 ， "m 


结 了 两 种 ， 下 面 列 出 了 一 些 关 于 选择 成 分 的 经 验 。 

1. 特征 值 标准 

特征 值 为 1， 这 意味 着 这 个 成 分 可 以 解释 一 个 变量 的 变化 价值 。 依 据 这 个 标准 ， 
成 分 应 该 至 少 解释 一 个 变量 的 变化 价值 。 我 们 必须 采用 值 大 于 或 等 于 1 的 特征 
根据 数据 集 来 设置 这 个 阔 值 。 在 一 个 维度 非常 高 的 数据 集中 ， 如 果 一 个 成 分 只 和 角 









































变量 ， 那 是 远 远 不 够 的 。 
2. 变化 的 比例 评判 标准 
我 们 先 运 行 如 下 代码 。 














解释 一 个 





print "Component, Eigen Value, $ of Variance, Cummulative $" 
cum per = 0 
per var = 0 


for i,e val in enumerate(eig val): 


per var = round((e val / len(eig val)), 


cum per-t-per var 


3) 


print ('$d, $0.2f, %0.2f, $0.2£')$(i*l, e val, per var*100,cum per*100) 


3. 输出 结果 

对 于 每 个 成 分 ， 我 们 打印 出 它 的 特征 值 、 该 成 分 可 解释 的 变化 所 占 
的 可 解释 变化 百分比 ， 如 图 4-4 所 示 。 例 如 ， 成 分 1 特征 值 为 2.91， 用 
的 结果 就 是 可 解释 的 变化 所 占 百分比 ， 结 果 是 72.896. 
解释 数据 里 95.8% 的 变化 。 

































































Component, Eigen Value, % of Variance, Cummulative X 
1, 2.91, 72.80, 72.80 
2, 0.92, 23.00, 95.80 
3, 0.15, 3.70, 99.50 
4, 0.02, 0.50, 100.00 

















的 百分比 以 及 累积 
2.91 除 以 4， 得 到 


现在 选择 前 两 个 成 分 ， 我们 就 可 以 













































































































































































图 4-4 
将 相关 和 珑 阵 分 解 成 特征 向 量 和 特征 值 是 一 种 通用 的 技术 ， 可 以 应 用 到 任意 的 矩阵 。 在 
本 例 中 ， 我 们 将 其 应 用 到 相关 和 矩阵 上 ， 目 的 是 了 解数 据 分 布 的 主轴 ， 通 过 这 条 轴 ， 我 们 能 
够 观察 到 数据 的 最 大 变化 。 
PCA 既 可 以 用 来 进行 探索 ， 也 可 以 用 来 给 后 续 的 算法 做 准备 。 文 档 分 类 数据 集 的 问题 
一 般 都 有 超 高 维度 的 特征 向 量 ，PCA 就 可 以 用 来 降低 数据 集 的 维度 ， 并 只 保留 最 相关 的 特 
征 提 供给 分 类 算法 。 
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PCA 的 一 个 缺点 是 运算 代价 高 昂 。 最 后 一 点 是 关于 NumPy 里 的 corrcoef 函数 ， 这 
个 函数 在 它 的 计算 过 程 里 内 置 进行 数据 标准 化 过 程 ， 为 了 将 缩放 过 程 的 状态 显露 出 来 ， 我 
们 在 本 节 特 意 执行 了 标准 化 过 程 。 


PCA 什么 时 候 有 效 ? 
M 输入 的 数据 集 必 须要 有 相关 联 的 列 ， 这 样 才 能 有 效 使 
Q 用 PCA。 若 是 输入 的 变量 间 没 有 相关 性 ，PCA 起 不 到 
作用 。 


















































425 参考 资料 


第 4 章 “ 数 据 分 析 一 一 深入 理解 ”中 4.4 节 “ 使 用 奇异 值 分 解 抽 取 特 征 ” 的 相关 内 容 。 


4.3 使 用 核 PCA 



























































PCA 假定 数据 所 有 变化 的 主要 方向 都 是 直线 ， 这 对 于 大 部 分 真实 场景 的 数 
是 无 法 满足 的 。 


Eoi, 


Hl 
y 











& PCA 仅 限 适用 于 这 样 的 变量 : 它们 数据 中 的 变化 落 在 
> 一 条 直线 上 。 换 句 话说 ， 它 只 适合 线性 分 布 的 数据 ， 











这 一 节 要 讨论 的 是 核 PCA， 它 能 帮助 我 们 为 那些 变化 不 是 线性 的 数据 集 降 维 。 我 们 特 
意 生 成 了 这 样 的 一 个 数据 集 来 应 用 核 PCA。 

TEIZ PCA 过 程 里 ， 所 有 的 数据 点 会 被 核 函 数 所 应 用 ， 这 将 把 输入 数据 转化 到 核 空间 
上 上 ， 然 后 在 这 个 核 空间 上 执行 普通 的 PCA 过 程 。 
4.3.1 ”准备 工作 

本 节 中 ， 我 们 不 再 采用 iris 数据 集 ， 而 是 生成 一 个 变化 非 线 性 的 数据 集 ， 不 直接 应 用 
简单 的 PCA 过程。 请 继续 关注 本 节 内 容 。 
4.3.2 ”操作 方法 


先 加 载 必需 的 库 , 然后 使 用 scikit-learn 库 里 的 make circles 函数 生成 一 个 数 
据 集 ， 在 其 上 执行 普通 PCA 过 程 ， 并 绘制 其 图 形 。 
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from sklearn.datasets import make circles 
import matplotlib.pyplot as plt 

import numpy as np 

from sklearn.decomposition import PCA 

from sklearn.decomposition import KernelPCA 





# 生成 一 个 变化 非 线性 的 数据 集 


np.random.seed(0) 


ur 


x,y = make circles (n samples-400, factor-.2,noise-0.02) 





# 为 生成 的 数据 集 绘制 
plt.close('all') 


plt.figure(1) 


ES 





形 











plt.title("Original Space") 
plt.scatter(x[:,0],x[:,11,c-y) 
plt.xlabel("$x 1$") 
plt.ylabel("$x 2$") 





# 试 试用 普通 PCA 处 理 这 个 数据 集 


bca = PCA(n components-2) 





pca.fit(x) 
X pca = pca.transform(x) 











我 们 绘制 出 这 个 数据 集 的 前 两 个 主 成 分 ， 然 后 只 用 其 中 第 1 个 主 成 分 绘 出 数据 集 的 











N 


plt.figure(2) 

plt.title("PCA") 

plt.scatter(x pca[:,0],x pca[:,1],c-y) 
plt.xlabel("$Component 1$") 
plt.ylabel("$Component 2$") 





# 应 用 普通 PCR， 绘 出 第 1 个 主 成 分 
class 1 indx = np.where(y--0)[0] 








class 2 indx = np.where(y--1)[0] 





plt.figure(3) 

plt.title("PCA- One component") 

plt.scatter(x pca[class 1 indx,0],np.zeros(len(class 1 \ 
indx)),color-2'red') 





plt.scatter(x pca[class 2 indx,0],np.zeros(len(class 2 \ 
indx)),color-'blue') 
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最 后 执行 核 PCA， 并 绘 出 各 个 成 分 。 


用 Scikit-learn 创建 一 个 KernelPCA 对 象 , 指定 一 个 核 类 型 作为 参数 
kpca = KernelPCA(kernel-2"rbf",gamma-10) 

执行 核 PCA 

kpca.fit(x) 


深入 理解 























x kpca = kpca.transform(x) 
绘制 前 两 个 主 成 分 

plt.figure(4) 

plt.title("Kernel PCA") 

plt.scatter(x kpca[:,0],x kpca[:,1],c-y) 

plt.xlabel("$Component 1$") 

plt.ylabel("$Component 2$") 

plt.show() 


433 工作 原理 


第 1 步 里 ， 我 们 用 scikit 库 里 的 数据 生成 函数 生成 了 一 个 数据 集 ， 本 例 中 使 用 的 是 
make circles 绘制 的 两 个 同心 圆 ， 大圆 包含 了 小 圆 。 这 样 每 个 同心 圆 分 属于 一 个 特定 的 
类 别 ， 我 们 用 这 两 个 同心 圆 创 建 了 一 个 两 类 问题 。 

首先 ， 我 们 来 看 生成 的 数据 ，make_circles 函数 生成 的 数据 集 大 小 为 400， 维 度 为 
2。 初 始 数据 的 图 形 如 图 4-5 所 示 。 
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这 个 图 显示 了 数据 如 何 分 布 ， 外 面 的 圆 属于 类 别 1， 内 部 的 圆 属于 类 别 2。 我 们 能 把 这 
些 数据 应 用 到 一 个 线性 的 分 类 器 里 吗 ? 显然 是 不 可 能 的 。 数 据 的 变化 是 非 线性 的 ， 我 们 无 
法 应 用 普通 PCA。 因 此 ， 我 们 得 求助 于 核 PCA 来 对 数据 进行 转换 。 


在 研究 核 PCA 之 前 ， 我 们 看 看 如 果 在 这 个 数据 集 上 应 用 普通 PCA 会 产生 什么 结果 。 
先 看 最 前 两 个 主 成 分 的 图 形 输出 结果 如 图 4-6 所 示 。 
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如 你 所 见 ，PCA 的 各 个 成 分 无 法 用 线性 形式 将 两 个 类 别 区 分 开 来 。 
现在 绘 出 第 1 个 成 分 并 了 解 它 的 类 别 区 分 能 力 。 在 图 4-7 中 ， 我 们 只 绘 出 了 第 1 个 成 
分 ， 它 解释 了 为 什么 PCA 无 法 区 分 开 数 据 。 








0.0015 PCA- One component 
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普通 PCA 方法 是 一 个 线性 的 投射 技术 ， 只 对 数据 是 线性 分 布 的 情形 有 效 。 在 数据 不 是 
线性 分 布 的 时 候 ， 我 们 需要 非 线 性 技术 来 给 数据 集 降 维 。 


WA PCA 对 于 数据 降 维 是 一 种 非 线性 的 技术 。 ] 
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现在 用 scikit-learn 库 创 建 一 个 核 PCA 对 象 ， 代 码 如 下 。 


KernelPCA (kernel-'rbf',gamma-10) 





我 们 选择 了 径 向 基 函 数 (Radial Basis Function; RBF) fZ, gamma fH 7y 10. gamma 是 
一 个 核 “ 用 来 处 理 非 线性 ) 的 参数 一 一 内 核 系数 。 


在 进一步 探索 之 前 ， 让 我 们 先 了 解 一 些 关 于 核 到 底 是 什么 的 理论 知识 。 有 一 个 简要 的 
定义 是 : 核 是 一 个 计算 点 积 的 函数 ， 两 个 向 量 之 间 的 相似 度 将 被 传递 给 它 作 为 输入 。 
RBF 高 斯 核定 义 于 输入 空间 的 两 个 点 x 和 x' 之 间 ， 公 式 如 下 。 




































































K(x, x^) -exp(» «lx x' If") 





N 
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Ug 








RBF 减 小 了 距离 ， 使 之 介 于 0~1， 因 此 可 以 被 解读 为 相似 度 度量 。 它 的 特征 空间 可 以 
是 无 限 维度 的 一 维基 百科 。 


上 述 内 容 可 以 从 以 下 链接 查阅 ， 请 参见 : 








[uu 




















http://en.wikipedia.org/wiki/Radial basis function kernel. 


现在 可 以 将 输入 的 特征 空间 转换 为 核 空间 ， 然 后 在 核 空间 上 执行 PCA。 


















































最 后 ， 我 们 绘制 出 前 两 个 主 成 分 的 散 点 图 〈 见 图 4-8)， 每 个 点 根据 它 的 类 别 值 分 为 不 
同 的 颜色 。 
从 图 4-8 中 可 以 看 出 ， 在 核 空间 里 点 是 线性 分 布 的 。 
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434 更 多 内 容 


scikit-learn 里 的 核 PCA 对 象 也 可 以 使 用 其 他 类 别 的 核 ， 如 下 所 示 。 


scikit-learn 也 提供 了 其 他 类 别 的 非 线 性 数据 生成 器 ， 








线性 。 

多 项 式 。 
Sigmoid. 
余弦 值 。 
预先 计算 的 。 























from sklearn.datasets import make moons 


x,y = make moons (100) 


pl 








LDULUTTTT 


In CT CT Ct In In 


.figure(5) 
.title("Non Linear Data") 


It.scatter(x[:,0],x[:,1],c-y) 


.xlabel("$x 1$") 
.ylabel("$x 2$") 
.savefig('fig-7.png') 


[七 .Show () 





下 








有 是 男 一 个 示例 。 
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这 个 数据 的 图 形 如 图 





4-9 所 示 。 
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Non Linear Data 


























4.4 使 用 奇异 值 分 解 抽 取 特 征 


之 前 已 经 了 解 了 PCA 和 核 PCA， 我 们 现在 可 以 介绍 以 下 的 降 维 方法 。 
。 将 相关 变量 转换 为 一 系列 不 相关 的 变量 。 这 样 , 我 们 面 对 的 数据 中 解释 相关 性 的 维 
数 就 减少 了 ， 而 且 没 有 丢失 任何 信息 。 
。 发 现 主 轴 ， 其 上 记录 了 数据 的 大 部 分 变化 。 
奇异 值 分 解 (Singular Value Decomposition, SVD) 是 另 一 种 矩阵 分 解 技术 ， 它 可 以 
用 来 解决 维度 问题 带 来 的 麻烦 ， 它 可 以 用 较 低 的 维 数 找 到 原始 数据 的 最 佳 近似 。 和 PCA 不 
同 ，SVD 直接 作用 于 原始 数据 矩阵 。 


QE SVD 不 需要 一 个 协 方差 或 者 相关 短 阵 ， 它 直接 作用 于 
S> ABAKIE KETE, 
































SVD 把 一 个 mxn HJA 




































































E 阵 分 解 成 3 个 矩阵 的 乘积 。 
A-U*S*VT 








这 里 的 U 是 一 个 mxk BABERE, V 是 nxk HERE, S 是 kxk HEBE, U 的 列 被 称 为 左 奇异 癌 





EL 
B 


lim] 
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V. 的 列 则 称 为 右 奇异 向 量 。 
AREE S 的 对 角 线 值 被 称 为 奇异 值 。 











44.1 准备 工作 











本 节 仍 使 用 iris 数据 集 ， 我 们 的 任务 是 将 它 的 维度 从 4 降 为 2。 





4.4.2 ”操作 方法 


加 载 必需 的 库 ， 获 取 iris 数据 身 





pim 
o 


from sklearn.datasets import load iris 
import matplotlib.pyplot as plt 

import numpy as np 

from sklearn.preprocessing import scale 


from scipy.linalg import svd 


# 加 载 Iris 数据 集 
data = load iris() 
x = data['data'] 
y = data['target'] 


# 接着 根据 它 的 平均 值 对 变量 x 进行 缩放 


X S = scale(x,with mean-True,with std-False,axis-0) 











# 用 svp 技术 分 解 矩 阵 ， 我 们 用 的 是 scipy 中 的 svp 实现 


U,S,V = svd(x s,full matrices-False) 





# 选择 最 前 两 个 奇异 值 来 近似 原始 的 矩阵 
xt = U[:,:2] 











# 最 后 用 降 维 的 成 分 来 绘制 出 数据 集 的 图 形 
plt.figure(1) 
plt.scatter(x t[:,0],x t[:,1],c-y) 
plt.xlabel("Component 1") 








plt.ylabel("Component 2") 
plt.show() 


现在 演示 如 何在 iris 数据 集 上 执行 SVD。 
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# 接着 根据 它 的 平均 值 对 变量 x 进行 缩放 
x S = scale(x,with mean=True,with std-False,axis-0) 


# 用 svp 技术 分 解 矩 阵 ， 我 








门 用 的 是 scipy 中 的 svp 实现 


U,S,V = svd(x s,full matrices-False) 


# 选择 最 


xt —-U[$5,12 


前 两 个 奇异 





] 


值 来 近似 原始 的 和 矩阵 


# 最 后 用 降 维 的 成 分 来 绘制 出 数据 集 的 


Oket [iL] 


plt.figure (1) 
plt.scatter(x t[:, 
plt.xlabel("Component 1") 
plt.ylabel("Component 2") 
plt.show() 


443 工作 原理 


iris 数据 集 有 4 个 列 ， 


维 降 为 二 维 


使 用 scikit-learn 

















> 并 保 

















y I 


的 列 尺度 一 致 ， 





El 
* XIE 


>>>x. shape 
(150, 4) 
>>> 











利用 它 的 平均 值 ， 我 们 对 数据 和 矩阵 x 3 




















留 数据 ， 


个 矩阵 ， 检 视 它 的 形态 




















JE 


虽然 不 算 多 ， 但 是 足够 月 
的 全 部 信息 。 


7 C=y) 











来 说 明 我 们 的 目的 : 把 iris 数据 集 从 四 








中 的 函数 load iris. 我 们 可 以 方便 地 将 数据 加 载 到 变量 x 和 






































.在 缩放 后 的 输入 数据 集 上 运行 SVD 方法 。 
2. 选择 最 大 的 两 个 奇异 成 分 ， 


i 





3. 最 后 ， 绘 和 








出 各 个 列 ， 并 用 3 

















O 结果 如 下 。 





行 缩放 。 经 验 法 则 告诉 我 们 ， 如 果 数 据 中 所 有 
度量 单位 相同 ， 就 没有 必要 进行 缩放 ， 这 样 可 以 让 PCA 捕捉 到 最 大 变化 的 
































羊 就 构成 原始 输入 数 所 














基本 单位 。 请 注意 我 们 调用 scale 函数 时 只 用 到 了 平均 值 。 
X S = scale(x,with mean-True,with std-False,axis-0) 





ui 


中 进行 降 维 后 的 近似 矩阵。 





























别 数值 区 分 不 同 的 颜色 《〈 见 图 





4-10). 
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Component 1 








4.4.4 更 多 内 容 


SVD 是 一 种 双 模 因子 分 析 ， 过 程 是 从 一 个 具有 两 类 实体 的 任意 矩阵 开始 。 这 和 之 前 的 
小 节 里 PCA 采用 一 个 相关 矩阵 作为 输入 是 不 一 样 的 , PCA 是 一 种 单 模 因 子 分 析 方 法 , 因为 
它 的 输入 方 阵 里 的 行 和 列 代表 的 是 相同 的 实体 。 

在 文本 挖掘 应 用 中 ， 输 入 一 般 被 表示 成 词 -文档 矩阵 〈Term-document Matrix, TDM). 
Æ TDM 里 ， 行 对 应 于 词 ， 而 列 对 应 于 文档 ， 单 元 格 实体 填充 的 是 词 频 或 者 TFIDF 分 数 。 
因此 ， 这 是 一 个 两 类 实体 的 矩形 阵 : 词 和 文档 分 别 由 行 和 列 代 表 。 

SVD 经 常 被 应 用 在 文本 挖 据 应 用 里 ， 用 来 发 现 词 和 文档 、 文 档 与 文档 以 及 词 与 词 之 间 
隐藏 的 关联 (语义 关联 )。 

将 SVD 应 用 于 一 个 词 -文档 矩阵 ， 我 们 可 以 将 它 转 为 一 个 新 的 语义 空间 , 在 此 空间 中 ， 
一 些 未 在 同一 文档 中 共 现 的 词 之 间 的 距离 可 以 十 分 接近 。SVD 的 目标 是 找到 一 条 有 效 的 路 
径 ， 来 给 词 和 文档 的 关联 关系 建 模 。 应 用 SVD 后 ， 每 个 文档 和 词 都 可 以 用 因子 值 构成 的 向 
量 来 表示 。 我 们 可 以 将 值 很 低 的 成 分 忽略 掉 ， 从 而 避免 数据 集 里 的 噪音 干扰 。 这 引出 了 一 
种 文本 语 料 的 近似 表示 方法 ， 称 为 潜在 语义 分 析 (Latent Semantic Analysis, LSA). 


这 种 方法 的 一 个 分 支 对 于 文档 为 查找 或 检索 建立 索引 具有 很 好 的 适应 性 。 它 不 再 为 原 
始 的 词 建立 反 向 索引 ， 而 是 为 输出 的 LSA 建立 索引 。 这 样 就 避免 了 同义词 和 一 词 多 义 的 困 
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扰 。 对 于 同义词 ， 


诬 烦 ， 因 为 文档 可 
例如 , 我 们 对 一 些 金融 类 的 文档 进行 索引 ,常见 的 词 有 “货币 ”“ 钱 ”以 及 一 些 类 似 的 词 等 。 



































j 户 会 倾向 于 使 用 不 同 的 词 表 达 相 同 的 实体 ， 这 给 普通 索引 带 来 了 很 大 





























能 只 对 常规 使 




















的 词 进行 了 索引 ， 对 一 dl RU 
























































“货币 ”和 “ 钱 ” 是 同义词 ， 当 一 个 用 户 搜索 “ 钱 ” 的 时 候 ， 按 道理 那些 与 “货币 ”有 关 的 





文档 也 应 该 被 显示 
































档 。 而 如 果 使 用 潜在 语义 索引 ， 











一 词 多 义 就 是 一 个 词 有 多 





























来 。 然 而 ， 仅 有 常规 索引 的 搜索 引擎 只 能 检索 到 那些 包含 “ 钱 ” 的 文 
那些 包含 “货币 ”的 文档 也 能 被 检索 到 了 。 在 潜在 语义 空 
间 中 ,“ 货 币 ” 和 “ 钱 ” 相 互 很 接近 ， 它 们 相 邻 的 词 在 文档 中 也 比较 相似 。 
EE 含义 ， 例如,“bank” 这 个 词 可 以 解释 成 一 种 金融 机 构 ， 也 
可 以 解释 成 河岸 。 和 同义词 类 似 ，LSA 也 可 以 解决 一 词 多 义 的 问题 。 




































































关于 LSA 和 潜在 语义 索引 的 详细 信息 ， 可 以 查阅 Deerwester 等 人 的 论文 ， 请 参见 : 











http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.108.8490。 


要 更 深入 地 研究 特征 值 和 奇异 值 ， 可 以 参阅 Cleve Moler PHI (Numerical Computing 


with MATLAB》， 虽 





可 以 用 Python 34 


Ed 


虽然 书 中 的 例子 是 用 MATLAB 编程 的 ， 但 在 本 书 相 关 章 节 的 帮助 下 ， 你 
J 重 写 。 请 参见 : https://in.mathworks.com/moler/eigs.pdf。 















































4.5 用 随机 映射 给 数据 降 维 


我 们 之 前 介绍 的 几 种 B 





























条 维 方法 运算 代价 都 很 高 兄 ， 速 度 都 不 是 最 快 。 随 机 映射 也 是 一 









































里 得 空间 的 映射 是 存在 的 ， 这 林 

















目的 就 是 保持 数据 中 任意 两 点 2 




















假定 在 任意 欧 几 里 得 空间 里 


























个 维 的 欧 几 里 得 

















之 间 。 


4.5.1 准备 工作 


本 节 我 们 将 使 





HH 








种 降 维 的 方法 ， 它 比 之 前 那些 方法 的 速度 都 要 快 。 

随机 映射 是 Johnson-Linden Strauss 定理 的 推论 ， 根 据 这 个 定理 ， 从 高 维 到 低 维 的 欧 几 
F 点 到 点 的 距离 被 保持 在 一 个 e 方差 内 。 因 此 ， 随 机 映射 的 
间 的 距离 ， 同 时 降低 数据 的 维度 。 
给 定 一 个 n 维 的 数据 ， 根 据 定理 ， 我 们 可 以 将 它 映 射 成 一 
空间 ， 这 样 所 有 点 之 间 的 距离 被 保持 在 (1-e ) M Ote ) 的 乘法 因子 








































































































] 20 个 新 闻 组 














的 数据 ， 来 自 以 下 链接 。 








http:/qwone.com/ 一 jason/20Newsgroups/。 
它 收藏 了 大 约 20000 个 新 闻 组 文档 ， 大 致 均匀 地 分 为 20 259], scikit-learn jë 
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供 了 方便 的 函数 来 加 载 这 个 数据 外 





Nx 
o 


from sklearn.datasets import fetch 20newsgroups 
data = fetch 20newsgroups (categories-cat) 





你 可 以 加 载 所 有 的 库 或 者 感 兴趣 的 分 类 列表 ， 它 提供 了 分 类 的 列表 ， 本 例 中 我 们 选择 
sci.crypt 分 类 。 

我 们 将 输入 文本 作为 词 -文档 矩阵 加 载 进来 ， 特 征 是 独立 的 词 。 在 这 里 ， 我 们 应 用 随 忆 
映射 来 降低 数据 维度 ， 来 看 看 文档 间 的 距离 在 降 维 后 的 空间 里 是 否 能 保留 下 来 。 对 了 ， 钠 
阵 中 的 实例 是 文档 。 


4.5.2 ”操作 方法 


先 加 载 必 需 的 库 ， 然 后 调用 scikit-learn 库 里 的 工具 函数 fetch20newsgroups 
获得 数据 集 ， 从 中 选择 sci .crypt 分 类 ， 将 文本 数据 转换 为 向 量 表示 。 




















u oe 










































































from sklearn.datasets import fetch 20newsgroups 





from sklearn.feature extraction.text import TfidfVectorizer 
from sklearn.metrics import euclidean distances 

from sklearn.random projection import GaussianRandomProjection 
import matplotlib.pyplot as plt 

import numpy as np 


# 加 载 20 个 新 闻 组 数据 集 

# 我 们 只 选用 sci .crypt 分 类 

# 其 他 分 类 还 包括 “sci.med”“sci.space”“soc.religion.Christian” 等 
cat -['sci.crypt'] 











data = fetch 20newsgroups (categories-cat) 








* 从 上 面 的 数据 集中 创建 一 个 词 -文档 矩阵 ， 词 频 作为 值 


vectorizer = TfidfVectorizer(use idf-False) 





vector = vectorizer.fit transform(data.data) 





# 执行 映射 ， 本 例 我 们 将 把 维度 降 到 1000 
gauss proj = GaussianRandomProjection(n components-1000) 
gauss proj.fit(vector) 


# 将 原始 数据 转换 到 新 的 空间 中 


vector t = gauss proj.transform(vector) 








# 打印 出 转换 后 的 向 量 的 形态 





166 第 4 章 数据 





采 入 理解 





print vector.shape 


print vector t.shape 


# 为 了 验证 转换 过 程 是 否 保持 了 距离 ， 我 们 计算 新 的 和 旧 的 两 点 间距 离 
org dist = euclidean distances (vector) 


red dist = euclidean distances (vector t) 


diff dist = abs(org dist - red dist) 





# 计算 出 两 个 点 之 间 的 差别 ， 并 绘制 出 热 图 (只 有 前 100 个 文档 ) 
plt.figure() 

plt.pcolor(diff dist[0:100,0:100]) 

plt.colorbar() 

plt.show() 











接 下 来 我 们 将 解释 随机 映射 的 概念 。 
4.5.3 ”工作 原理 


加 载 了 新 闻 组 数据 集 之 后 ， 我 们 通过 下 面 的 语句 将 其 转 为 矩阵 的 形式 。 














TfidfVectorizer(use idf-False). 























请 注意 use_idf WAJ False, HEREROENE RITE, Fl 
立 的 词 ， 单 元 格 数 值 是 词 出现 的 次 数 。 
































fH print vector.shape 命令 ， 得 到 的 输出 结果 如 下 。 


(595, 16115) 





可 以 看 到 输入 的 矩阵 有 595 个 文档 ，16115 个 词 ， 每 个 词 就 是 一 个 特征 ， 也 是 一 个 
维度 。 




































































使 用 密集 高 斯 矩阵 来 对 数据 进行 映射 ， 高 斯 随机 矩阵 是 从 正 态 分 布 N〈0,1/ 成 分 总 数 ) 
中 采样 获取 元 素 而 生成 的 。 本 例 中 , 成 分 总 数 为 1000, 目标 是 将 维度 从 16115 降低 到 1000。 
随后 我 们 会 打印 出 原始 的 和 降 维 后 的 数据 来 进行 验证 。 


最 后 要 验证 一 下 数据 的 特征 在 映射 之 后 是 否 保 留 下 来 ， 方 法 是 计算 向 量 间 的 欧 几 里 得 


距离 。 分 别 记录 下 在 原始 空间 和 了 映射 空间 里 的 距离 ， 然 后 像 第 7 步 中 那样 计算 出 它们 之 间 
的 差异 ， 并 把 这 些 差异 以 热 图 的 形式 绘制 出 来 ( 见 图 4-11)。 
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图 4-11 


如 你 所 见 ， 表 明 原 始 空间 和 降 维 空间 的 向 量 距 离 差 异 的 渐变 范围 介 于 0.000—0.105 之 
间 ， 两 者 的 差异 几乎 都 在 一 个 很 小 的 范围 内 。 


4.5.4 更 多 内 容 


现在 有 很 多 关于 随机 映射 的 指南 ， 对 这 个 领域 的 研究 十 分 活跃 ， 有 兴趣 的 读者 可 以 从 
下 面 的 链接 中 找到 一 些 相关 的 论文 。 请 参见 : 


(Experiments with random projections) if Jl http://dl.acm.org/citation.cfm?id-719759; 









































(Experiments with random projections for machine learning) if. http://citeseerx.ist. 





psu.edu/viewdoc/summary?doi-10.1.1.13.9205 . 


RERIKATAN m ELSE LAXE EE XE AES 8 N C0,1/10000. 中 采样 生成 
Hj, 1000 就 是 我 们 要 降 到 的 空间 维度 。 


然而 ,采用 密集 矩阵 可 能 在 处 理 过 程 中 导致 严重 的 内 存 相 关 问 题 。 为 了 避免 这 些 问 题 ， 
Achlioptas 提议 采用 稀 朴 随机 映射 ， 不 从 标准 的 正 态 分 布 ， 而 是 从 区 间 {-1.0,1} 中 选择 实体 ， 
采用 的 概率 是 {1/6,2/3,1/6}。 如 你 所 见 ， 选 择 0 的 概率 是 3， 因此 结果 矩阵 将 是 一 个 稀 玻 
车 。 读 者 可 以 参考 Achlioptas 的 首创 论文 《Dimitris Achlioptas，Database-friendly random 
projections: Johnson-Lindenstrauss with binary coins》， 计 算 机 与 系统 科学 杂志 第 66 (4) d, 
671 一 687 页 ，2003 年 出 版 。 
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scikit 实现 过 程 中 允许 用 户 选 择 结果 和 矩阵 的 密度 ， 如 有 果 我 们 指定 密度 为 4，s 为 Md; 





N 





采用 的 概率 如 下 。 
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那么 将 根据 下 面 的 公式 来 选择 矩阵 的 元 素 。 





























d " d 
No components No components 


[1-1 二 | 
Oy de. 





第 4 章 “ 数 据 分 析 一 一 深入 理解 ”中 43 节 “ 使 用 核 PCA” 的 相关 内 容 。 





4.6 用 NMF 分 解 特征 矩阵 








H 


趣 的 技术 ， 它 是 从 协同 过 滤 角 度 出 发 的 。 虽 然 降 维 是 我 们 的 追求 ， 不 过 采用 协同 过 滤 算 法 


的 非 负 矩阵 分 解 CNon-negative Matrix Factorization, NMF)) 常常 被 用 在 推荐 系统 中 。 





1 面 几 节 里 介绍 了 一 些 为 数据 降 维 而 采用 的 矩阵 分 解 技术 ， 现 在 我 们 来 讨论 一 种 更 有 














































































































假定 我 们 的 输入 和 矩阵 4 是 mxn 维度 的 ，NMEF 将 它 分 解 成 两 个 矩阵 Aan 和 Hs AR 


如 下 。 


假定 我 们 要 将 入 


^ 











NMF 解决 了 著名 的 Nefflix 挑战 ， 请 访问 以 下 链接 了 解 详情 。 


ERE Adash 是 mxd 








的 ， 5 








A-A,Q,*H 


dash 





EREA BEREN d, Wiki mxn EEDEN mxd, HP d 远 小 于 n。 











ERE H æ dxm, NMF 把 它 转化 为 一 个 优化 问题 ， 即 最 小 化 以 下 








| A- A us *H F 





























Gábor Takács 等 人 在 2008 年 10 H 23 一 25 日 瑞士 洛桑 举办 的 ACM 推荐 系统 大 会 上 发 
表 的 文章 《Matrix factorization and neighbor based algorithms for the Netflix prize problem), 


第 267—274 页 ， 




















发 布 链接 为 : http:/dl.acm.org/citation.cfm?id=1454049 。 
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4.6.1 准备 工作 


为 了 解释 NMF， 我 们 得 准备 一 个 模拟 的 推荐 问题 。 在 标准 的 推荐 系统 ， 如 有 着 大 群 用 
户 和 大 量 项 目 (电影 ， 的 MovieLens 或 Netflix 那样 ， 每 个 用 户 对 一 些 电影 做 出 了 评价 ， 我 
们 将 预测 他 们 如 何 对 尚未 评价 的 电影 进行 评价 。 先 假定 这 些 用 户 还 没 观看 过 他 们 未 评价 的 
电影 ， 我 们 的 预测 算法 输出 对 这 些 电影 的 评价 ， 然 后 推荐 引擎 推荐 其 中 评价 较 高 的 影片 给 
这 些 用 户 。 





























































































































































































































































































































我 们 的 模拟 数据 是 一 些 电 影 ， 具 体 信息 如 表 4-1 所 示 。 
表 4-1 
电影 ID 电影 名 
1 星球 大 战 
2 黑客 帝国 
3 盗 梦 空 间 
4 哈 利 波 特 
5 霍 比 特 人 
6 纳 瓦 隆 大 炮 
7 PERKE IE 
8 兵临城下 
9 血 染 雪山 堡 
10 胜利 大 逃亡 
总 共 10 部 电影 ， 通 过 它们 的 电影 ID 进行 区 别 。 然 后 10 个 用 户 对 它们 的 评价 情况 如 

















表 4-2 所 示 。 











表 4-2 
影 ID 
用 户 ID 1 2 3 4 5 6 7 8 9 10 
1 5.0 5.0 4.5 4.5 5.0 3.0 2.0 2.0 0.0 0.0 
2 4.2 4.7 5.0 3.7 3.5 0.0 2.7 2.0 1.9 0.0 
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HK 
E ID 

RIP ID 1 2 3 4 5 6 7 8 9 10 

5 2.1 2.6 0 2.1 0 3.8 4.8 4.1 4.3 4.7 

6 4.7 4.5 0 4.4 4.1 3.5 3.1 3.4 3.1 2.5 

7 2.8 24 24 3. 3.4 3.8 4.4 4.9 4 4.3 

8 4.5 4.7 4.7 4.5 4.9 0 2.9 2.9 2.5 24 

9 0 3.3 2.9 3.6 3.1 4 4.2 0 4.5 4.6 

10 4.1 3.6 3.7 4.6 4 2.6 1.9 3 3.6 0 
为 了 提高 可 读 性 ,我 们 保留 矩阵 的 形式 : 行 对 应 用 户 ， 列 对 应 电影 ， 单 元 格 的 值 是 1 一 
5 的 评分 ，5 分 表示 用 户 的 高 度 好 感 ，1 分 表示 用 户 反 感 。0 值 表示 用 户 没 有 做 出 评价 。 在 


本 章 中 ， 我 们 使 用 NMF 对 userid x movie. id 4 


4.6.2 





操作 方法 





324117 


import numpy as np 


Et 加 载 必需 的 库 ， 然 后 生成 数据 集 ， 








from collections import defaultdict 


from sklearn.decomposition import NMF 


import matplotlib.pyplot as plt 











movie dict 











在 Python 中 加 载 评价 和 矩阵 

ratings - 

D20,;-—54.0,; 425, 4.57. 5.0; 
4525. Ul Dur 3b i35; 
2.5 QO .B37 314. 2452; 
3.85. 4.1, 4.6, 4.5; A-T, 
2.1;—25206;-.0:07 Jb 0:07 
AL dD 0.0;,74.4; 4.L, 
2:985: 24; UL dy 
4.5, dup EL, A 5. "dy 
0:207 23:735 CQ B67- 3*1; 
4.1, 3.2.64 3h; 4.6, 4.0; 


Na 0o 0 C€)0Q) P2 4i QO CQ) 





0, 2.0, 
0, 27; 
6, 4.0, 
2.7.3 uy 
8, 4.8, 
Sa» cow 
8, 4.4, 
0, 2.9, 
0, 4.2, 
651497 
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Q a Noa 0o ND 4S i Oo 


E 阵 进行 分 解 。 


并 保存 成 一 个 入 
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:"Star Wars", 
:"Matrix", 
:"Inception", 
:"Harry Potter", 
:"The hobbit", 
:"Guns of Navarone", 


:"Saving Private Ryan", 


en 





Enemy at the gates", 
:"Wher agles dare", 
0:"Great Escape" 








Do p uc-JotUu0Uu0Ht m 


= np.asmatrix(ratings,dtype-float) 


ORDER EG E BE IHR 


max components - 2 
reconstruction error - [] 
nmf = None 


nmf = NMF(n components = max components,random state-1) 
A dash = nmf.fit transform(A) 


# 检查 降 维 的 矩阵 
for i in range(A dash.shape[0]): 

print "User id = $d, compl score = $0.2f, comp 2 score = \ 
$0.2£"$(i*1,A dash[i][0],A dash[i][11]) 


lt.figure(1) 


A dash[:,0] 
A dash[:,1] 
plt.scatter (x, y) 


p 
plt.title("User Concept Mapping") 
x 
y 


plt.xlabel("Component 1 Score") 








plt.ylabel("Component 2 Score") 


# 检查 成 分 矩阵 E 
F = nmf.components 


plt.figure(2) 





plt.title("Movie Concept Mapping") 


x = F[0,:] 
y = F[1,:] 
plt.scatter (x, y) 


plt.xlabel("Component 1 score") 








plt.ylabel("Component 2 score") 
for i in range(F[0,:].shape[0]): 
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plt.annotate (movie dict[i+1], (F[0,:] [1],F[1,:1] [i])) 
plt.show() 


现在 演示 非 负 和 矩阵 转换 。 
# 对 数据 进行 非 负 和 矩 阵 转换 








max_components = 2 
reconstruction error = [] 
nmf = None 


nmf = NMF(n components = max components,random state-1) 
A dash = nmf.fit transform(A) 


# 检查 降 维 的 矩阵 


for i in range(A dash.shape[0]): 


print "User id = $d, compl score = $0.2f, comp 2 score = \ 
$0.2£"$ (i*1,A dash[i][0],A dash[i][11]) 
Lt.figure (1) 
Lt.title ("User Concept Mapping") 
= A dash[:,0] 
= A dash[:,1] 


Lt.scatter (x,y) 
lt.xlabel ("Component 1 Score") 








O O.T wo AOUD 
| 





lt.ylabel("Component 2 Score") 


# 检查 成 分 矩阵 F 


F = nmf.components 

















plt .figure (2) 
plt.title("Movie Concept Mapping") 
x = F[0,:] 
y = F[1,:] 
plt.scatter (x,y) 
plt.xlabel("Component 1 score") 
plt.ylabel("Component 2 score") 
for i in range(F[0,:].shape[0]): 
plt.annotate (movie dict[i*1], (F[0,:] [1],F[1,:] [i1])) 
plt.show() 


4.6.3 工作 原理 


我 们 从 列表 中 将 数据 加 载 到 NumPy 的 和 矩阵 A&， 然 后 通过 变量 max commponents X 
置 将 维度 降 到 2， 接 着 初始 化 一 个 NMF 对 象 ， 并 设 定 它 的 成 分 数量 ， 最 后 应 用 算法 来 得 到 
降 维 后 的 矩阵 A_dash。 
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输入 矩阵 A 被 转换 为 降 维 的 矩阵 A_qash， 它 的 形态 如 下 所 示 。 











A dash = nmf.fit transform(A) 
以 上 步骤 是 我 们 所 必需 的 ，scikit 库 隐 藏 了 其 中 的 许多 细节 ， 我 们 来 看 看 后 台 都 发 


生 了 什么 。 形 式 上 ，NMEF 把 原始 矩阵 分 解 成 两 个 和 矩阵， 它们 相 乘 就 得 到 原始 矩阵 的 近似 。 
请 看 如 下 的 代码 。 






































>>>A dash.shape 
(10, 2) 








原始 矩阵 有 10 个 列 ， 降 维 后 的 矩阵 只 有 两 个 列 ， 这 就 是 降 维 后 的 空间 。 从 数据 投射 的 
角度 来 看 , 我 们 可 以 认为 算法 已 经 将 初始 的 10 个 电影 划分 成 两 类 。 单 元 格 里 的 数值 表示 用 
户 对 每 一 类 别 的 喜好 程度 。 


我 们 将 喜好 程度 进行 打印 输出 ， 代 码 如 下 。 















































for i in range(A dash.shape[0]): 
print User id = $d, compl score = $0.2f, comp 2 score -£$0.2f£$(i*1,A dash \ 
[i] [0],A dash[i][1]) 











输出 结果 如 图 4-12 所 示 。 





User id = 1, compl score = 2.14, comp 2 score = 0.00 
User id - 2, compl score - 1.92, comp 2 score - 0.00 
User id = 3, compl score = 0.77, comp 2 score = 2.14 
User id - 4, compl score - 1.95, comp 2 score - 0.46 
User id = 5, compl score = 0.30, comp 2 score = 2.45 
User id = 6, compl score = 1.39, comp 2 score = 1.36 
User id = 7, compl score = 0.99, comp 2 score = 2.10 
User id = 8, compl score = 2.02, comp 2 score = 0.43 
User id - 9, compl score - 0.80, comp 2 score - 1.86 


User id - 10, compl score - 1.75, comp 2 score - 0.60 








图 4-12 
请 看 用 户 1， 上 图 的 第 1 行 表明 用 户 1 给 分 类 1 评价 分 数 为 2.14， 分 类 2 分 数 为 0， 这 
表明 用 户 1 更 偏好 分 类 1。 


用 户 2 也 偏好 分 类 1， 我 们 把 输入 的 数据 集 降 到 了 二 维 ， 这 样 在 图 形 里 很 容易 观察 到 
一 些 结果 。 


x 轴 上 是 成 分 1，y 轴 是 成 分 2， 我 们 把 多 个 用 户 的 散 点 图 绘制 出 来 ， 如 图 4-13 所 示 。 


你 会 发 现 用 户 被 分 成 了 两 组 : 对 成 分 1 的 评分 大 于 1.5 的 和 小 于 1.5 的 。 这 样 我 们 就 在 
降 维 特征 空间 中 将 用 户 分 到 了 两 个 簇 里 。 
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User Concept Mapping 


3.0 


Component 2 Score 











0.0 0.5 1.0 1.5 2.0 2.5 
Component 1 Score 











图 4-13 














请 看 另 一 个 和 矩阵 了 。 





F = nmf.components 





和 矩阵 FE 有 两 行 10 列 ， 每 行 代表 了 成 分 组 成 ， 每 列 代表 一 个 电影 的 ID 。 它 的 用 途 是 表 
示 对 于 不 同类 别 电影 的 偏好 程度 。 我 们 可 以 把 这 个 矩阵 的 图 形 绘制 出 来 。 
这 个 字典 来 给 给 每 个 点 注释 出 电影 













































































for i in range(F[0,:].shape[0]): 
plt.annotate (movie dict[i-*1], (F[0,:] [1],F [1,:] [i])) 








annotate 方法 把 字符 串 (用 来 注释 ) 作为 第 1 个 参数 ，x 和 y 坐标 作为 一 个 元 组 。 
输出 的 图 形 如 图 4-14 所 示 。 


你 会 发 现 有 两 个 明显 的 组 : 所 有 的 战争 片 在 成 分 1 里 的 得 分 都 很 低 ， 而 在 成 分 2 的 得 
分 都 很 高 ， 而 神 幻 类 电影 则 与 之 相反 。 我 们 可 以 肯定 地 说 ， 成 分 2 由 战争 片 组 成 ， 给 成 分 
2 打 高 分 的 用 户 更 偏好 战争 电影 ， 类 似 的 结论 也 适用 于 神 幻 电影 。 


这 样 ， 我 们 通过 NMF 发 现 了 输入 的 电影 矩阵 中 隐藏 的 特征 。 
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25 Movie Concept Mapping 


Great Escape 


6 dare 


o Private Ryan 


fnemy at the gates 


Component 2 score 





70.5 0.0 0.5 10 15 2.0 2.5 
Component 1 score 











图 4-14 








4.6.4 更 多 内 容 


我 们 知道 了 如 何 为 用 户 将 特征 空间 从 十 维 降 到 二 维 ， 现 在 把 它 应 用 到 推荐 引擎 中 ， 我 
们 先 把 原始 矩阵 重 构 为 两 个 和 矩阵 。 






































reconstructed A = np.dot(A dash,F) 
np.set printoptions (precision-1) 
print reconstructed A 


重 构 后 的 矩阵 如 图 4-15 所 示 。 
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它 和 原始 矩阵 有 什么 区 别 呢 ? 请 看 原始 和 矩阵， 请 注意 加 粗 显 示 的 行 ， 如 表 4-3 所 示 。 


深入 理解 




















LU 






































d 4-3 
电影 ID 

用 户 ID 1 2 3 4 5 6 7 8 9 10 
1 5.0 5.0 4.5 4.5 5.0 3.0 2.0 2.0 0.0 0.0 
2 4.2 4.7 5.0 3.7 3.5 0.0 2.7 2.0 1.9 0.0 
3 2.5 0.0 3.3 3.4 2.2 4.6 4.0 4.7 4.2 3.6 
4 3.8 4.1 4.6 4.5 4.7 22 3.5 3.0 2.2 0.0 
5 2.1 2.6 0 2.1 0 3.8 4.8 4.1 4.3 4.7 
6 4.7 4.5 0 44 4.1 3.5 3.1 3.4 3.1 2.5 
7 2.8 24 24 3.3 34 3.8 44 4.9 4 4.3 
8 4.5 4.7 4.7 4.5 4.9 0 2.9 2.9 2.5 24 
9 0 3.3 2.9 3.6 3.1 4 42 0 4.5 4.6 
10 4.1 3.6 3.7 4.6 4 2.6 1.9 3 3.6 0 





































































































对 于 用 户 6 和 电影 3， 现 在 有 了 一 个 评分 ， 这 有 助 于 我 们 决定 是 否 向 还 没有 看 过 这 部 
L1 



















































































či 




















E 影 的 用 户 进行 推荐 。 请 记 住 ， 这 只 是 一 个 模拟 的 数据 集 ， 真 实 世 界 的 场景 拥有 的 
的 电影 和 用 户 。 


4.6.5 参考 资料 


4 章 “ 数 据 分 析 一 一 深入 理解 ”中 4.4 节 “ 使 用 奇异 值 分 解 抽取 特征 ”的 相关 内 容 
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在 这 一 章 旦 


























。 使 用 距离 度量 














e. 学 习 和 使 用 核 方法 






































e 用 k-means 进行 数据 聚 类 
e 学 习 向 量 量化 


。 在 单 变量 数据 中 找 出 异常 点 





























EE， 我 们 将 探讨 以 下 主题 。 














。 使 











局 部 异常 因子 方法 发 现 异 全 








5.1 简介 


本 章 主 要 关注 一 些 无 监督 的 数据 挖掘 外 





同 的 距离 度量 和 空间 对 于 构建 数据 科学 应 















































法 。 我 们 先 从 介绍 几 利 



































这 些 点 都 属 了 








j 是 非常 关键 的 。 任 何 数据 及 





F 某 个 特定 空间 。 我 们 可 以 把 空间 定义 为 一 个 普遍 的 点 的 由 


























就 落 在 这 个 集 





合 中 。 最 常 














的 长 度 就 是 它 的 维度 数 。 


























接着 介绍 的 是 核 方 法 ， 它 是 机 器 学 习 : 




















解决 非 线 性 数据 问题 。 我 们 主要 介绍 核 映射 上 

















] 的 空间 是 欧 几 


有 德 空间 , 在 




















F 始 ， 了 解 不 

É 系列 的 点 ， 
EG. STEM S 
!， 点 是 实数 向 量 ， 向 量 




































































接着 





























程 。 例 如 一 个 起 六 
量 处 理 。k-means 算法 是 本 节 特 别 


是 对 一 些 聚 类 算法 的 讲解 











4 





J 





隔 到 不 同 的 逻辑 组 昌 


AER 


要 的 一 个 主题 ， 帮 助 我 们 使 用 线性 方法 
的 概念 。 























的 处 理 过 



































的 场景 ， 商 品 被 定性 地 按 种 类 进行 分 组 ， 
关注 的 专题 ， 
























































而 我 们 要 研究 的 是 如 何 进 行 定 
决 点 和 优点 。 
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下 一 个 要 介绍 的 是 学 习 向 量 量化 ， 它 是 一 种 无 监督 技术 ， 























不 同 的 任务 。 
































最 后 我 们 关注 的 是 异常 点 检测 方法 。 异 常 点 就 是 数据 集 



































他 点 明显 看 起 来 不 一 样 








的 点 ， 对 它们 进行 研究 十 分 重要 ， 因 为 它们 可 能 代表 着 在 生成 数据 的 过 程 中 出 现 了 不 寻常 





























的 现象 或 者 错误 。 当 机 器 学 习 模 型 匹配 了 数据 之 后 ， 在 将 数据 传递 给 信 
异常 点 是 非常 重要 的 。 本 章 我 们 会 集中 介绍 一 些 异常 点 检测 的 经 验 。 












































法 前 了 解 如 何 处 理 





本 章 的 各 节 都 十 分 依赖 Python 的 NumPy、SciPy、matplotlib 和 scikit-learn 











等 库 ， 我 们 的 代码 风格 也 将 从 脚本 型 转 为 大 量 编写 过 程 和 类 。 


5.2 使 用 距离 度量 

















对 于 很 多 数据 挖掘 任务 ， 计 算 距离 和 相似 度 度 量 非 常 关键 。 本 节 将 研究 一 些 距离 度量 
的 实践 ， 下 一 节 则 讨论 相似 度 度 量 。 在 研究 距离 度量 之 前 ， 我 们 4 







































































作为 数据 科学 家 ， 我 们 经 常 接触 不 同 维度 的 点 或 向 量 。 


























定义 一 下 距离 测度 。 





层面 上 ， 一 系列 的 


点 定义 了 一 个 空间 ,一 个 空间 里 的 距离 度量 被 定义 为 函数 d(x,y)， 它 把 空间 里 的 x 和 y 
两 个 点 作为 参数 ， 返 回 一 个 实数 作为 输出 ， 这 个 距离 函数 输出 的 实数 ， 要 满足 以 下 几 








点 规则 。 
1. 距离 函数 的 输出 必须 是 非 负 的 ，d(x,y) 宇 0。 
2. A xzy 的 时 候 ， 函 数 的 输出 为 0。 
3. 距离 是 对 称 的 ， 即 d(x,y)= dQy,x)。 
4. 距离 应 遵循 三 角 不 等 式 ， 即 day doz)+ d(z,y)。 









































认真 研究 以 上 第 4 条 原理 ， 我 们 可 以 推论 出 距离 是 两 个 点 最 短路 径 的 长 度 。 























以 上 几 条 规则 的 详细 信息 可 以 在 以 下 链接 查看 ， 请 参见 
http://en.wikipedia.org/wiki/Metric. 9%28mathematics9029 。 


5.2. 准备 工作 






































本 节 将 研究 在 欧 氏 空间 和 非 欧 氏 空 间 里 的 距离 度量 。 我 们 从 前 者 开始 ， 多 
Lr-Norm 距离 ， 这 是 欧 氏 空间 的 系列 距离 度量 家 族 中 的 一 员 ， 然 

















欧 空间 ， 我 们 将 介绍 Jaccard 距离 和 Hamming 距离 。 




















定义 一 个 


绍 余弦 距离 。 对 于 非 




















pala 
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5.2.2 ”操作 方法 


我 们 定义 几 种 计算 距离 度量 的 函数 。 





import numpy as np 


def euclidean distance(x,y): 
if len(x) == len(y): 
return np.sqrt (np.sum(np.power((x-y),2))) 
else: 
print "Input should be of equal length" 


return None 


def lrNorm distance (x,y,power): 
if len(x) == len(y): 
return np.power(np.sum (np.power(np.abs (x-y),power)), (1/(1.0*power))) 
else: 
print "Input should be of equal length" 


return None 


def cosine distance (x,y): 
if len(x) == len(y): 
return np.dot(x,y) / np.sqrt(np.dot(x,x) * np.dot(y,y)) 
else: 
print "Input should be of equal length" 


return None 


def jaccard distance (x,y): 
set x = set(x) 
set y = set(y) 
return 1 - len(set x.intersection(set y)) / len(set x.union(set y)) 


def hamming distance (x,y): 

diff = 0 
if len(x) == len(y): 

for charl,char2 in zip(x,y): 

if charl != char2: 
diff+=1 

return diff 
else: 

print "Input should be of equal length" 


return None 
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现在 我 们 编写 主 函 数 来 调用 这 


if 


5.2.3 


先 来 看 看 主 函 数 ， 我 们 创建 了 一 个 样 例 数据 集 一 一 两 个 三 维 的 向 量 ， 然 后 调用 


昌 一 一 海底 捞 针 


























name == " main ": 














# 样 例 数据 ， 两 个 三 维 的 向 量 
np.asarray([1,2,3]) 





x= 
y = np.asarray([1,2,3]) 
# 打印 输出 欧 氏 距离 


print euclidean distance (x,y) 


lr norm 距离 函 数 打 印 欧 氏 空 


# 工 值 为 2， 调 用 
lrNorm distance (x,y,2) 
哈 顿 或 者 城市 街区 距离 


pe lrNorm distance (x,y,1) 





# 计算 余弦 距离 的 样 例 数据 
x =[1,1] 
y =[1,0] 


print 'cosine distance' 


print cosine_distance (x,y) 


# 计 算 Jaccard 距离 的 样 例 数据 


x — [1,2,3] 
y = [1,2,3] 
print jaccard distance (x,y) 


# 计 算 Hamming 距离 的 样 例 数据 

x =[11001] 

y =[11011] 

print hamming distance (x,y) 


工作 原理 














euclidean distance PH. 


这 是 欧 氏 空间 里 最 常用 的 距离 度量 ， 它 属于 Lr-Norm 距离 家 族 。 如 果 一 个 空间 里 的 点 


是 由 实数 数值 组 成 的 向 量 ， 


























那么 这 个 空 








离 。 欧 氏 距 离 的 公式 如 下 。 


d([x, X5, X, [y ) =4 2G, = yy 





如 你 所 见 ， 区 




















欧 氏 距离 是 通过 计 








几 种 距离 度 





zs 间 就 是 欧 








间距 离 



































RE 


间 ， 

















ER 
J 


每 个 维度 的 距离 推 








其 中 的 距离 也 被 称 为 L2-Norm FE 











出 来 的 (对 应 维度 相 减 ), 求 平方 ， 


最 后 取 平 方 根 。 


上 面 的 代码 

















E, RAIH T NumPy 的 平方 根 和 和 需 函 数 来 完成 上 述 公 式 计 























np.sqrt (np.sum(np.power ( (x-y),2))) 























欧 氏 距离 绝对 都 是 1 
点 


np.asarray([1,2,3]) 


np.asarray([1,2,3]) 


E 数 ， 只 有 x 和 y 相等 时 才 为 0， 我 们 调用 下 面 的 代码 就 能 很 ; 











print euclidean distance (x,y) 


HAE 


如 你 所 见 ， 我 们 定义 了 两 个 NumPy 数组 x 和 Y， 并 让 它们 相等 ， 现 在 用 这 些 参数 来 调 


























] euclidean distance 函数 ， 输 出 的 结果 就 是 0。 


现在 我 们 调用 L2-Norm 函数 lrNorm distance. 


















































Sx ys Y2 Y D) (5 Xi zd Yi r) 
i=1 


Lr-Norm X 
我 们 从 公式 中 可 以 清楚 地 看 出 这 一 点 。 
d([x,, X5, 
公式 里 有 




















个 参数 =， 我 们 把 2 代入 r， 上 面 的 公式 就 成 了 欧 几 里 德 公 式 。 因 此 ， 
氏 距 离 也 被 称 为 L2-Norm 距离 。 





lrNorm distance (x,y,power): 


除了 两 个 向 量 ， 我 们 还 传递 了 power 参数 ， 这 就 是 公式 
由 设置 为 2， 我 们 就 得 到 欧 氏 距离 ， 运 行 下面 的 代码 可 以 验证 一 下 。 





LT 
































print lrNorm distance (x,y,2) 


FIRR E 
现在 定义 两 个 一 村 

















在 空间 里 ， 





向 量 也 可 以 被 认为 是 方向 ， 余 弦 距 离 返 回 








值 作为 


E 离 值 。 





函数 。 输 入 向 量 间 角度 的 余弦 人 














E 离 函数 一 样 ， 这 将 返回 0 f. 
的 向 量 x 和 y， 然 后 调用 cosine_distance IK Zt. 
给 定 的 两 个 向 量 之 间 夹 角 的 余弦 
































E 离 度量 是 一 系列 距离 度量 族 中 的 一 员 ， 欧 氏 距离 也 只 是 这 个 族 中 的 一 个 。 


欧 


HAE X] ro JE power 的 数 


E 离 














欧 氏 空间 以 及 由 





整数 或 布尔 值 组 成 的 向 量 构成 的 空间 都 可 以 应 用 余弦 














是 两 个 向 量 的 点 积 与 向 量 的 L2-Norm 乘积 的 比值 。 
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np.dot (x,y) / np.sqrt(np.dot(x,x) * np.dot(y,y)) 





分 子 的 计算 方法 是 两 个 输入 向 量 的 点 积 。 





np.dot (x, y) 

















我 们 采用 NumPy 的 dot 函数 来 计算 点 积 ， 两 个 向 量 x 和 y 的 点 积 计算 公式 定义 如 下 。 
" s 

















再 看 分 母 部 分 。 











np.sqrt(np.dot(x,x) * np.dot(y,y)) 





我 们 仍 使 用 dot 函数 来 计算 输入 向 量 的 L2-Norm 值 。 
# np.dot (x, x) 和 以 下 代码 等 价 
tot = 0 


for i in range(len(x)): 
totr-x[i] * x[i] 














这 样 ， 我 们 就 可 以 计算 两 个 输入 向 量 间 夹 角 的 余弦 值 了 。 

接 下 来 介绍 Jaccard 距离 。 和 前 面 的 讲解 类 似 ， 我 们 先 定义 样 例 向 量 ， 然 后 调用 
jaccard distance 函数 。 

之 前 涉及 的 是 实数 构成 的 向 量 ， 现 在 我 们 换 成 集合 。 给 定 输入 向 量 集合 ， 它 们 的 交集 
和 并 集 大 小 的 比值 通常 被 称 为 Jaccard 系数 。1 减 去 这 个 系数 ， 得 到 的 就 是 Jaccard 距离 。 
在 实践 中 ， 我 们 会 先 将 输入 的 列表 转换 为 集合 ， 这 样 就 可 以 通过 Python 提供 的 集合 数据 类 
型 进行 交集 和 并 集 操作 。 


















































set x = set(x) 


set y = set(y 


最 后 计算 距离 的 代码 如 下 。 





1 - len(set x.intersection(set y)) / (1.0 * len(set x.union(set y))) 























nd 








我 们 得 使 用 集合 数据 类 型 的 交集 和 并 集 操作 来 进行 计算 。 
最 后 一 个 介绍 的 距离 度量 是 Hamming 距离 。 对 于 两 个 位 类 型 的 向 量 ，Hamming 距离 


























就 是 这 两 个 向 量 间 不 同 的 位 的 数量 。 





lm 





for charl,char2 in zip(x,y): 


if charl !- char2: 


diff+=1 


return diff 


























52 ”使 用 距离 度量 ”183 





我 们 使 用 了 zip 函数 来 检查 每 个 位 , 统计 不 同 的 位 的 总 数 . Hamming 距离 常常 搭配 分 














类 变量 使 用 。 
5.24 更 多 内 容 





记 住 ， 将 距离 值 减 去 1 就 可 以 得 到 相似 度 值 。 




















还 有 一 个 被 广泛 应 用 的 距离 我 们 还 没有 谈 及 一 一 Manhattan H 











5 








对 于 不 同 数据 类 型 组 成 的 空 





SH 




















, 我 们 要 注意 它们 给 空间 计 和 售 出 














7 TH 
E 要 





的 所 有 点 的 平均 中 心计 算 











有 平均 值 概念 。 








E 离 ， 也 称 城 市 街 



































x 间 ， 我 们 得 选择 合适 的 距离 度量 。 
节 来 的 影响 。 例 如 ， 在 k-means 算法 中 ， 每 一 步 都 要 把 相 








出 来 作为 聚 类 中 心 。 欧 氏 空 间 有 一 个 
一 个 点 ， 这 个 点 是 所 有 点 的 平均 中 心 。 




















区 用 余弦 距离 的 时 候 ， 








ARRARAS 





不 过 对 于 Jaccard 距离 来 说 ,和 

















它 是 欧 氏 空间 ; 如 果 是 整数 ， 则 不 是 欧 氏 空间 
的 一 个 向 量 








当 作 轴 ， 文 档 则 是 这 个 空间 里 























当 之 间 的 相似 度 。 





SciPy 实现 了 上 述 所 有 的 距离 ， 








以 下 链接 列 出 了 更 多 的 详 


间 是 不 是 欧 氏 空 
































区 距离 。 
它 是 一 个 Ll-Norm 距离 。 把 1 作为 参数 r 的 值 传递 给 Lr-Norm 函数 ， 就 得 到 Manhattan 
Ig 


在 算法 中 使 用 这 些 距离 











良好 的 特性 ， 空 间 里 存在 
































余弦 值 就 代表 了 这 
































LS: p: , 请 参见 : 











http://docs.scipy.org/doc/scipy/reference/spatial.distance.html - 





上 面 的 链接 展示 了 SciPy 支持 的 所 有 距离 类 型 。 























DATES, MEA 


间 。 如 果 向 量 的 元 素 是 实数 ， 那 
ae RIEA SAHTE, IERT, wa 
EE ， 两 个 文档 向 量 来 角 的 


文 两 个 文 


此 外 ，scikit-learn 的 子 模块 pairwise 提供 了 一 个 pairwise distance 方法 ， 


























j 它 可 以 从 输入 的 记录 中 计生 





HE 








EAN 








ERE. HA 


见 : 





http:Wscikitlearn.org/stable/modules/generated/sklearn.metrics.pairwise.pairwise distances. 


html. 
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我 们 曾 提 到 过 Hamming 距离 常常 搭配 分 类 变量 , 值得 注意 的 一 点 是 : 独 热 编 码 也 常常 
当 作 分 类 变量 使 用 。 在 进行 独 热 编码 之 后 ，Hamming 距离 可 以 直接 用 来 当 作 输入 的 向 量 之 
间 的 相似 度 / 距 离 。 


5.2.5 参考 资料 


第 4 章 “ 数 据 分 析 一 一 深入 理解 ”中 4.5 节 “ 用 随机 映射 给 数据 降 维 ”的 相关 内 容 。 


5.3 学 习 和 使 用 核 方法 


































































































本 节 要 讨论 的 是 在 数据 处 理 过 程 中 应 用 核 方法 ， 掌 握 了 它 能 帮 你 处 理 非 线性 问题 。 本 
节 将 引 你 入 门 。 

一 般 而 言 ， 线 性 模型 可 以 用 一 条 直线 或 一 个 超 平面 将 数据 分 隔 开 ， 是 比较 容易 解释 和 
解 的 。 数 据 若 是 非 线性 的 就 无 法 使 用 线性 模型 ， 但 要 是 数据 能 被 转换 成 线性 相关 性 的 空 
|]， 则 可 以 使 用 线性 模型 。 然 而 ， 满 足 上 述 条 件 需要 进行 代价 高 昂 的 数学 运算 。 幸 亏 核 函 
数 给 了 我 们 一 条 便捷 之 道 。 

核 函 数 是 一 种 相似 度 函数 ， 它 需要 两 个 输入 参数 ， 这 两 个 输入 之 间 的 相似 度 即 核 函数 
的 输出 结果 。 本 节 将 研究 如 何 计算 这 个 相似 度 ， 还 将 讨论 核 技巧 。 

核 函数 天 的 正式 定义 是 一 个 相似 度 函 数 : K(x,x2)>0 表示 xi 和 x 间 的 相似 度 。 


5.3.1 “准备 工作 


讨论 各 种 核 函数 之 前 ， 我 们 先 在 数学 上 对 它 进行 定义 : 
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3 HLÉO xc RI c UAR A IE 
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Eri S E95 KARRA T8] et P p — AE A, 输入 的 向 量 是 维 空间 ， 
转换 函数 把 它 转换 为 m 维 空间 ， 且 m>>n。 

















loapa) 





上 面 的 式 子 表示 ， 























点 H 


wI o 


(9x) 90) 
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上 上面 的 式 子 表示 x、 必 的 点 积 现 在 被 映射 函数 转换 成 一 个 新 的 空间 。 




















这 是 


先 设 定 如 | 


我 们 先 来 看 看 实践 中 的 一 种 简单 的 核 函数 。 
下 的 映射 函数 。 












































2 2 2 
qx, 3 X ? X) = (x, d x 2 X ? xXx, 2 xx d Xy», ? Xy ? X3 d X45) 

















将 原始 输入 数据 提供 给 这 个 映射 函数 ， 它 就 能 将 其 转换 为 新 的 空间 。 
操作 方法 


我 们 先 创建 两 个 输入 向 量 ， 再 定义 一 个 如 上 小 节 所 述 的 映射 函数 。 


5.3.2 


import numpy as np 
# —^ ep EDI RR ECL AS B n P 
三 维 的 输入 向 量 


二 























x = np.array([10,20,30]) 


y = 


np.array([8,9,10]) 


# 定义 一 个 映射 函数 来 转换 空间 
# phi(x1,x2,x3) 


十 


= (xl1x2,x1x3,x2x3,x1x1,x2x2,x3x3) 
上 面 这 个 函数 把 输入 向 量 转换 成 六 维 





def mapping function (x): 


output 


list 


=H 


for i in range (len (x)): 


list. 
list. 
list: 
list. 
list. 





list. 


put list.append(x[i]*x[i]) 


append (x[0]*x[1 
append (x[0]*x[2 
x[1]*x[0 
x[1]*x[2 
append (x[2]*x[1 


( ] 1) 
( ] 1) 
append( ] 1) 
append( ] 1) 
( ] 1) 
( ] 1) 


append (x[2]*x[0 
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return np.array(output list) 






































现在 来 看 看 调用 核 转换 的 主 函 数 ， 我 们 在 主 函数 中 先 定义 一 个 核 函数 ， 向 它 传递 输入 
变量 ， 然 后 打印 出 结果 。 








k(x, y) 2 (x, yy 





{SF name == " main " 
# 应 用 映射 函数 。 
tranf x = mapping function (x) 


tranf y = mapping function(y) 
# 打印 输出 结果 
print tranf x 


print np.dot(tranf x,tranf y) 


# 打印 输出 等 价 于 核 函数 的 转换 输出 结果 


output = np.power((np.dot(x,y)),2) 





print output 


5.33 ”工作 原理 


现在 从 主 函数 开始 解释 程序 代码 。 我 们 先 创建 输入 向 量 x 和 y， 二 者 都 是 三 维 。 
然后 我 们 定义 了 映射 函数 ， 它 应 用 了 输入 向 量 的 值 ， 并 把 输入 向 量 升 维 成 一 个 新 的 空 
间 。 本 例 中 ， 维 度 从 3 升 到 了 9. 


现在 应 用 映射 函数 把 维度 升 高 到 9。 
打印 输出 tranf_x， 得 到 的 结果 如 下 。 































































































[100 400 900 200 300 200 600 600 300] 


如 你 所 见 ， 输 入 向 量 x 从 三 维 被 转换 成 一 个 九 维 的 向 量 。 
现在 把 转换 后 的 空间 进行 点 积 运 算 ， 并 打印 输出 。 
输出 的 结果 是 313600， 一 个 标量 值 。 
现在 简要 重 述 一 下 : 先 把 两 个 输入 向 量 转 换 成 高 维 的 九 维 向 量 , 然后 计算 它们 的 点 积 ， 
来 产生 一 个 标量 输出 。 


上 述 步 又 的 运算 过 程 需要 大 量 计算 开销 。 
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我 们 也 可 以 采用 一 个 核 函 数 ， 它 能 获得 同样 的 标量 结果 ， 但 不 需要 显 式 地 将 原始 空间 
转换 为 新 空间 


这 个 新 核 函 数 定义 如 下 。 





























k(x, y) 2 Gc yy 
这 个 核 函 数 计算 出 输入 的 x 和 >y 向 量 的 点 积 ， 然 后 求 平 方 值 。 将 结果 打印 出 来 ， 也 是 
313600. 
我 们 没有 进行 转换 过 程 ， 但 得 到 了 和 转换 后 的 空间 点 积 运 算 相同 的 结果 ， 这 就 是 所 谓 
的 核 技 巧 。 
选择 核 并 没有 特殊 技巧 ， 对 核 进行 扩展 ， 就 能 获得 映射 函数 。 参 阅 以 下 链接 可 以 获得 
更 多 扩展 信息 ， 请 参见 : 























































































































http://en.wikipedia.org/wiki/Polynomial kernel. 


534 更 多 内 容 
核 的 类 型 很 多 ， 取 决 于 数据 特征 和 算法 的 需要 ， 我 们 要 做 的 是 选择 合适 的 核 。 下 面 列 
了 一 部 分 核 类 型 
线性 核 : 这 是 核 函数 中 最 简单 的 一 类 ， 对 于 两 个 给 定 的 输入 ， 它 返回 输入 的 点 积 。 


K(x,y)= x y 









































Er 





























多 项 式 核 : 定义 如 下 。 

KQ y) 2 Qa y oy 
这 里 的 x 和 y 是 输入 向 量 , 4 是 多 项 式 的 度 , c 是 一 个 常量 。 本 节 我 们 取 度 为 2 的 多 项 式 核 。 
下 面 的 链接 讲述 的 是 scikit 中 的 线性 核 和 多 项 式 核 的 具体 实现 ， 请 参见 : 


http://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.linear_kernel.html#sklea 







































































rn.metrics.pairwise.linear_kernel 和 http://scikit-learn.org/stable/modules/generated/sklearn. 


metrics.pairwise.polynomial kernel.html#sklearn.metrics.pairwise.polynomial kernel. 
5.3.5 参考 资料 


第 4 章 “ 数 据 分 析 一 一 深入 理解 ”中 4.3 节 “ 使 用 核 PCA” 的 相关 内 容 。 
第 4 章 “ 数 据 分 析 一 一 深入 理解 ”中 4.5 节 “ 用 随机 映射 给 数据 降 维 ” 的 相关 内 容 。 
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5.4 用 k-means 进行 数据 聚 类 























本 节 将 介绍 k-means 算法 。 它 是 一 种 搜寻 中 心 的 无 监督 算法 , à Pu 














民 的 不 确定 方法 。 

















所 谓 迭 代 ， 是 指 算法 的 步 又 不 断 重 复 ， 直 到 达到 收敛 的 那 一 步 ， 不 确定 则 指 的 是 算法 的 初 值 



























































个 香里 的 点 相互 靠近 ， 而 不 同和 能 里 的 点 相互 远离 。 


5.4.1 准备 工作 














不 同 ， 得 到 的 最 终 聚 类 结果 可 能 不 同 。k-means 需要 指定 簇 的 数量 k 来 作为 算法 
至 于 如 何 选择 K 的 值 ， 目 前 还 没有 什么 好 方法 ， 只 能 通过 多 次 运行 算法 比较 结果 来 确定 。 


对 于 任 一 种 内 类 算法 来 说 ， 输 出 结果 的 质量 取决 于 簇 内 的 内 聚 和 簇 间 的 分 散 ， 在 同一 




















的 输入 参数 ， 


在 介绍 使 用 Python 实现 k-means 算法 之 前 ， 我 们 得 先 了 解 两 个 关键 性 的 概念 ， 它 们 能 







































































量 艇 质量 的 指标 。 


k-means 产生 的 每 个 艇 都 可 以 用 以 下 的 指标 来 进行 评估 。 














帮 我 们 更 好 地 理解 算法 输出 结果 的 质量 优 劣 。 首 先是 关于 复 的 质量 的 定义 ， 其 








次 是 用 来 衡 





1. RIME: PLR k-means 初始 化 的 时 候 随机 选择 一 个 点 作为 中 心 点 ， 然 后 


每 个 步骤 迭代 找到 一 个 新 的 中 心 ， 在 这 个 新 的 中 心 附近 的 点 都 相似 ， 
2. RIFE: 艇 内 每 个 点 到 篮 中 心 的 距离 的 平均 差 。 
3. 入 的 规模 : 簇 内 点 的 总 数 。 
4. 簇 的 密度 ， 簇 的 规模 和 簇 的 半径 的 比值 。 






































现在 可 以 衡量 输出 的 簇 的 质量 了 。 之 前 提 过 ， 它 是 无 监督 问题 ， 无 法 给 出 如 精度 、 召 
HR, EHR F 分 数 或 其 他 类 似 指标 那样 的 衡量 方法 ， 我 们 将 采用 所 谓 的 轮廓 系数 来 评 






































并 被 划分 到 





fii k-means 的 结果 。 它 的 值 介 于 -1~~1， 负 值 说 明 入 的 半径 大 于 簇 之 间 的 距离 ， 























两 个 入 之 间 有 重 且 ， 这 说 明 聚 类 结果 很 差 ， 而 值 越 大 ， 越 接近 1， 则 表明 聚 类 






































能 中 的 每 个 点 都 定义 了 轮廓 系数 ， 在 一 个 马 C 里 ,是 点 i 到 簇 内 其 他 点 的 距离 的 平 








均值 。 








然后 计算 这 个 点 i 到 其 他 簇 D 中 所 有 点 的 距离 的 平均 值 ， 选 择 其 























"E yi A 
| max(x,, y;) 





同一 个 组 。 














也 就 是 说 ， 
结果 越 好 。 











FP 的 最 小 值 yio 
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每 个 艇 里 所 有 点 的 轮廓 系数 的 平均 值 可 以 用 来 衡量 
的 平均 值 可 以 用 来 衡量 聚 类 分 入 的 质量 。 


我 们 先生 成 一 些 随 机 数据 。 





中 





import numpy as np 
import matplotlib.pyplot as plt 


def get random data(): 
x 1 = np.random.normal(loc-0.2,scale-0. 
x 2 = np.random.normal(loc-0.9,scale-0. 


x = np.r [x 1,x 2] 


return x 


我 们 从 正 态 分 布 中 采样 两 组 数据 ， 第 1 组 的 平均 值 
值 为 0.9， 标 准 差 为 0.1. 每 个 数据 集 是 一 个 100X 100 的 

















这 个 篮 的 质量 。 所 有 点 的 轮 廊 系数 


2,Size-(100,100)) 
1,size-(100,100)) 


为 0.2， 标 准 差 为 0.2; 第 2 组 平均 
矩阵 一 一 这 样 就 有 100 个 100 维 的 














实例 。 最后， 我 们 使 用 NumPy 里 的 行 堆 肝 函数 将 它们 合并 ,现在 数据 集 的 大 小 是 200x100. 


























画 出 数据 的 散 点 图 ， 如 图 5-1 所 示 。 


x = get random data() 


plt.cla() 

plt.figure(1) 
plt.title("Generated Data") 
plt.scatter(x[:,0],x[:,1]) 
plt.show() 


Generated Data 
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虽然 只 绘 出 了 第 1 个 和 第 2 个 维度 ， 仍 可 以 清晰 地 看 出 有 两 个 马 。 下 面 我 们 将 介绍 如 
何 写 k-means 聚 类 算法 的 代码 。 


5.4.2 ”操作 方法 


我 们 定义 一 个 函数 来 执行 k-means 算法 。 给 它 参 数 kx， 就 能 对 给 定数 据 进行 聚 类 ， 并 
返回 全 局 轮廓 系数 。 
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from sklearn.cluster import KMeans 


from sklearn.metrics import silhouette score 


def form clusters(x,k): 


LEUR 


Build clusters 


"nn 
# k ÆRA H ARES IE 

no_clusters = k 

model = KMeans (n_clusters=no_clusters,init='random') 
model.fit (x) 

labels = model.labels_ 

print labels 
# 计算 轮廓 系数 


sh score = silhouette score (x, labels) 








return sh score 























给 定 不 同 的 k 值 来 调用 上 面 的 函数 ， 并 记录 返回 的 轮廓 系数 。 


sh scores = [] 

for i in range(1,5): 
sh score = form clusters (x,i-*1) 
sh scores.append(sh score) 


no clusters = [i+1 for i in range(1,5)] 








最 后 ， 绘 制 不 同 的 k 值 时 生成 的 轮廓 系数 图 形 。 





no clusters = [i+1 for i in range(1,5)] 


plt.figure(2) 





plt.plot(no clusters,sh scores) 
plt.title("Cluster Quality") 
plt.xlabel("No of clusters k") 


plt.y 
plt.s 
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label("Silhouette Coefficient") 
how() 





5.4.3 ”工作 原理 


如 前 所 述 ，k-means 是 一 种 迭代 的 算法 ， 大 和 至上， 它 的 步骤 如 下 。 


1. 从 
2. dA 
a. 将 


b. X 
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数据 集中 随机 选择 k 个 点 作为 簇 的 初始 中 心 点 。 

行 以 下 步骤 直到 收敛 的 那 步 。 

点 分 配给 最 近 的 篮 中 心 ， 一 般 用 欧 氏 距离 来 算出 这 个 点 和 复 中 心 的 距离 。 
于 本 次 迭 代 过 程 中 分 配 的 点 重新 计算 簇 中心 。 


















































. 如 果 分 配 的 点 和 上 一 次 迭代 过 程 里 的 都 一 样 , 则 算法 收敛 到 一 个 最 优 解 , 退出 循环 。 
































3. 我 们 从 scikit-learn 库 中 调用 k-means XWR, H k 值 和 数据 集 作为 参数 ， 


























7 








调用 的 代码 如 下 。 


model 
model 


我 们 给 函数 传递 了 no. clusters 参数 ， 并 采 





= KMeans (n clusters-no clusters,init-'random') 
.fit (x) 














—- 





] init 参数 把 初始 的 中 心 点 设置 为 随 



































机 点 。 这 样 ，scikit-learn 对 数据 的 平均 值 和 方差 进行 评估 ， 然 后 从 高 斯 分 布 中 取样 k 
个 中 心 。 

最 后 ， 调 用 fit 方法 来 对 数据 集 执 行 k-means 算法 。 

labels = model.labels 

sh score = silhouette score(x,labels) 

return sh score 
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在 实际 场景 里 ， 我 们 对 数据 集 使 用 k-means 算法 时 ， 并 不 知道 数据 里 有 多 少 个 艇 ， 也 
就 没 法 给 出 一 个 完美 的 k 值 。 本 例 我 们 生成 的 数据 适合 两 个 艇 ,因此 我 们 设置 k=2。 不 过 ， 
我 们 也 会 尝试 使 用 不 同 的 k 值 。 

















sh scores = [] 


for i 


in range(1,5): 


sh score = form clusters (x,i-*1) 
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sh scores.append(sh score) 





我 们 把 不 同 k 值 运行 产生 的 轮廓 系数 结果 保存 下 来 ， 绘 制 出 X 与 轮廓 系数 对 应 的 图 形 ， 
如 图 5-2 所 示 ， 以 此 揭示 最 适合 数据 集 的 x 值 。 








no clusters = [i+1 for i in range(1,5)] 


plt.figure(2) 

plt.plot(no clusters,sh scores) 
plt.title("Cluster Quality") 
plt.xlabel("No of clusters k") 
plt.ylabel("Silhouette Coefficient") 
plt.show() 





Cluster Quality 





Silhouette Coefficient 











20 25 3.0 3.5 4.0 4.5 5.0 
No of clusters k 














图 5-2 
和 预计 的 一 样 ， 在 k=2 BR CR RR ER 
5.4.4 更 多 内 容 


应 用 k-means 要 注意 ， 不 能 用 它 来 对 数据 集 进 行 分 类 ， 要 使 用 k 中 心 点 算法 。k 中 心 
m o: | 簇 中 心 ， 而 是 找 出 一 个 点 ， 使 得 它 和 簇 里 的 所 有 
点 的 平均 距离 最 小 。 


分 配 初始 簇 的 时 候 要 注意 ， 要 是 数据 稠密 而 且 分 布 广泛 ， 如 果 初 始 的 随机 中 心 分 布 在 
同一 个 簇 内 ，k-means 就 不 能 正常 运行 。 
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一 般 来 说 ，k-means 对 于 具有 星 形 凸 起 的 数据 集 十 分 有 效 ， 访 问 以 下 链接 可 以 了 解 更 
星 形 凸 起 数据 点 的 细节 ， 请 参见 : http://mathworld.wolfram.com/StarConvex.html。 


TREERE RRRA, k-means 的 输出 结果 十 分 糟糕 。 


数据 中 存在 异常 点 也 会 导致 不 好 的 结果 ， 因 此 在 运行 k-means 之 前 ， 最 好 先 做 一 次 彻 
底 的 数据 探索 以 鉴别 数据 的 特征 。 


k-means++ 算 法 在 开始 进行 初始 化 簇 中 心 的 时 候 , 不 是 随机 设置 簇 中 心 , 而 是 采用 了 另 
一 种 方法 。 请 参阅 下 面 的 k-means++ 论 文 : 《k-means++: the advantages of careful seeding}, 
2007 年 ACM-SIAM 离散 算法 会 议 。 
5.4.5 参考 资料 


第 5 章 “ 数 据 挖 气 


5.5 学 习 向 量 量化 
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海底 捞 针 ”中 5.2 节 “ 使 用 距离 度量 ”的 相关 内 容 。 




















本 节 将 介绍 一 种 无 模型 的 数据 点 聚 类 方法 学 习 癌 量 量化 (Learning Vector 
Quantization, LVQ), LVQ 可 以 用 来 执行 分 类 任务 。 使 用 这 种 技术 时 ， 很 难 在 目标 变量 和 
预测 变量 之 间 做 出 合适 的 推断 。 和 其 他 方法 不 同 ， 它 很 难 搞 清楚 反应 变量 y 和 预测 器 x 之 
间 存 在 什么 样 的 联系 。 因 而 在 许多 现实 场景 中 ， 它 是 作为 一 种 黑箱 方法 来 加 以 应 用 的 。 


5.51 准备 工作 


LVQ 是 一 种 在 线 学 习 算 法 ， 每 次 只 处 理 一 个 数据 点 ， 它 产生 很 直观 的 效果 。 假 定 我 们 
有 一 些 原型 向 量 用 来 鉴别 数据 集中 的 不 同类 别 ， 那 些 被 训练 的 点 将 被 相似 的 类 所 吸引 而 被 
其 他 类 排斥 。 

LVQ 的 主要 步骤 如 下 。 

为 数据 集 里 的 每 个 类 别 选 择 Kk 个 初始 的 原型 向 量 ， 如 果 是 一 个 两 分 类 问题 ， 并 且 每 个 
分 类 中 有 两 个 原型 向 量 ， 那 我 们 就 需要 设置 4 个 初始 的 原型 向 量 ， 它 们 是 从 输入 的 数据 集 
中 随机 选取 的 。 

接着 进行 循环 ， 直 到 s 值 变 为 0 或 者 预先 设 定 的 闪 值 。 我 们 得 确定 一 个 e 值 并 在 每 次 
循环 中 都 使 之 减 小 。 
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每 次 循环 中 ， 我 们 都 要 采样 一 个 输入 点 《 带 蔡 换 )， 采 用 欧 氏 距离 找 出 离 它 最 近 的 原型 














向 量 ， 然 后 按 下 面 的 操作 更 新 最 邻近 点 的 原型 向 量 。 





























如 果 它 的 原型 向 量 的 类 别 标签 和 输入 数据 点 的 相同 ， 则 在 原型 向 量 上 增加 原型 向 量 和 





数据 点 的 差异 。 




















如 果 类 别 标签 不 同 ， 则 在 原型 向 量 上 减 去 原型 向 量 和 数据 点 的 差异 。 
本 节 使 用 iris 数据 集 来 演示 LVQ 如 何 工作 。 和 前 面 几 节 一 样 ， 我 们 使 用 scikit-learn 












































里 的 数据 加 载 函 数 方便 地 加 载 iris 数据 集 ， 用 来 展示 LVQ 的 能 






































from sklearn.datasets import load iris 





import numpy as np 


from sklearn.metrics import euclidean distances 


data = load iris() 
x = data['data'] 


y = data['target'] 


# 对 变量 进行 缩放 


from sklearn.preprocessing import MinMaxScaler 








minmax = MinMaxsScaler() 


x = minmax.fit transform(x) 


5.5.2 ”操作 方法 


1. 先 声 明 LVQ 的 参数 。 


R= 2 

n classes = 3 

epsilon = 0.9 
epsilon dec factor = 0.001 


2. 定义 一 个 类 来 保存 原型 向 量 。 





class prototype (object): 


UEURI 


Class to hold prototype vectors 


Wm 


def init .(self,class id,p vector,eplsilon): 
self.class id = class id 


























o LVQ 处 理 的 数据 集 可 以 





不 带 类 别 标签 。 由 于 采用 的 是 欧 氏 距离 ， 我 们 将 对 数据 进行 最 小 最 大 缩放 。 


UA 
UA 

i 
al 
m 
su 
y 
[zx 














self.p vector = p vector 


self.epsilon = epsilon 


def update(self,u vector,increment-True): 
if increment: 
# 将 原型 向 量 向 输入 向 量 靠近 
self.p vector = self.p vector + self.epsilon*(u vector \ 
- self.p vector) 




















else: 
# 使 原型 向 量 远离 输入 向 量 
self.p vector = self.p vector - self.epsilon*(u vector \ 





- self.p vector) 




















3. 下面 这 个 函数 找 出 离 给 定向 量 最 近 的 原型 向 量 。 


def find closest (in vector,proto vectors): 
closest - None 
closest distance - 99999 
for p v in proto vectors: 
distance = euclidean distances (in vector,p v.p vector) 
if distance « closest distance: 
closest distance = distance 
closest = p v 
return closest 














4. 下 面 这 个 函数 能 快速 找 出 最 近 的 原型 向 量 的 类 别 ID 。 





def find class id(test vector,p vectors): 


return find closest(test vector,p vectors).class id 


5. 选择 初始 化 的 kx 原型 向 量 类 别 数 。 
# 为 每 个 类 选择 R 个 原型 

















p vectors = [] 
for i in range(n classes): 
选择 一 个 类 
y subset = np.where(y == i) 
为 选中 的 类 选择 元 组 
x subset = x[y subset] 
获得 R 个 随机 下 标 ， 介 于 0 一 50 
samples = np.random.randint(0,len(x subset),R) 
选择 P_ vectors 


for sample in samples: 
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s = x subset[sample] 
p = prototype(i,s,epsilon) 
p vectors.append (p) 


print "class id Nt Initial protype vector\n" 
for p v in p vectors: 
print p v.class id,'Nt',p v.p vector 


print 




















6. 利用 已 有 的 数据 点 ， 执 行 循环 调整 原型 向 量 ， 对 新 的 点 进行 分 类 / 聚 类 。 











while epsilon >= 0.01: 
随机 采样 一 个 训练 实例 


rnd i = np.random.randint (0,149) 








rnd s = x[rnd i] 


target y = y[rnd i] 


为 下 一 次 循环 减 小 = 
epsilon = epsilon - epsilon dec factor 
查找 与 给 定点 最 相近 的 原型 向 量 


closest pvector = find closest(rnd s,p vectors) 





| 





更 新 最 相近 的 原型 向 量 


if target y == closest pvector.class id: 


T 








closest pvector.update (rnd s) 
else: 

closest pvector.update (rnd_s, False) 
closest pvector.epsilon = epsilon 


print "class id Nt Final Prototype Vector\n" 
for p vector in p vectors: 


print p vector.class id,'Nt',p vector.p vector 

















7. 下 面 是 一 段 测试 代码 来 检查 方法 是 否 正确 。 








predicted y = [find class id(instance,p vectors) for instance in x ] 
from sklearn.metrics import classification report 
print 


print classification report(y,predicted y,target names-['Iris- \ 
Setosa','Iris-Versicolour', 'Iris-Virginica']) 


5.5.3 ”工作 原理 





































































































量 。iris 数据 集 是 三 分 类 问题 ， 因 此 总 共有 6 个 原型 向 量 。 我 们 还 得 选 定 e 的 值 和 它 的 缩 
减 因子 。 
接着 第 2 步 中 定义 一 个 结构 来 保存 原型 向 量 的 各 个 细节 ， 我 们 用 一 个 类 为 数据 集 里 所 
有 的 点 保存 以 下 内 容 。 
self.class id = class id 
Self.p vector = p vector 
self.epsilon = epsilon 
原型 向 量 所 属 的 类 别 标签 标识 了 向 量 本 身 和 epsilon 值 , 类 还 有 一 个 update 函数 用 来 
更 改 原型 的 值 。 
def update(self,u vector,increment-True): 
if increment: 
# 将 原型 向 量 向 输入 向 量 靠近 
self.p vector = self.p vector + self.epsilon*(u vector \ 
- self.p vector) 
else: 
# 使 原型 向 量 向 远离 输入 向 量 
self.p vector = self.p vector - self.epsilon*(u vector \ 


- self.p vector) 





"d 





第 3 步 定 义 了 一 个 函数 ， 它 把 原型 向 量 

















给 定 的 向 量 最 相近 的 一 个 作为 函数 返回 值 。 





for pv in proto vectors: 


列表 中 所 有 给 












































第 1 步 先 为 算法 准备 初始 化 参数 ， 我 们 把 R 值 设 为 2， 即 每 个 类 别 标签 有 两 
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distance = euclidean distances(in vector,p v.p vector) 


if distance « closest distance: 


closest distance - distance 


closest = p v 














如 你 所 见 ， 代 码 循环 遍历 所 有 的 原 
断 相 似 度 。 





型 向 量 














来 找 出 最 相近 的 那个 














第 4 步 的 小 函数 用 来 返回 与 





5 


它 使 月 


给 定 的 向 量 最 相近 的 原型 向 量 的 类 别 ID 








昌 欧 氏 距 离 来 


! 原 型 向 


合 定 的 向 量 作 为 输入 ， 从 中 选择 与 


Cri 


第 5 步 中 的 算法 核 
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完成 以 上 步骤 ，LVQ 算法 的 前 置 处 理 过 程 都 已 就 绪 ， 现 在 可 以 进入 匈 
每 个 类 别 都 要 选择 一 个 初始 的 原型 向 量 ， 然 后 从 每 个 类 别 中 选择 R 个 随机 点 。 外 
循环 针对 每 个 类 别 ， 在 此 随机 选择 R 个 样本 ， 创 建 原 型 对 象 ， 代 码 如 下 。 












































心 部 分 。 








E 


samples = np.random.randint(0,len(x subset),R) 


+ A} p vectors 
for sample in samples: 

S = x subset[sample] 
prototype (i,s,epsilon) 
ppend (p) 


加 或 减 小 原型 向 量 ， 不 断 循环 直到 s ^S TF BUE 0.01. 


pe 
p vectors.a 























第 6 步 里 ， 我 们 反复 增 


随后 我 们 从 数据 集中 随机 选择 一 个 点 ， 代 码 如 下 。 














# 随机 采样 一 个 训练 实例 
rnd i np.random.randint(0,149) 
rnd s = 
target y = y[rnd i] 


这 个 点 和 它 对 应 的 类 别 ID 都 被 检索 出 来 了 。 
上 和 它 最 相近 的 原型 向 量 了 ， 代 码 如 下 。 


x[rnd i] 








这 样 我 们 就 能 找 


closest pvector = find closest(rnd s,p vectors) 


如 果 当 前 点 的 类 别 ID 和 原型 的 类 别 一 致 ， 我 们 就 把 increament 参数 设 为 True Wil 


























关 
update 方法 ， 否 则 把 increament 参数 设 为 False 来 调 | 














E 





里 


# 更 新 最 相近 的 原型 向 
if target y == closest pvector.class id: 








closest pvector.update (rnd s) 
lse) 





else: 
closest pvector.update (rnd s,Fa 


行 更 新 。 























最 后 ， 我 们 将 最 相近 的 原型 向 量 的 s 值 进 


量 打印 输出 来 查看 。 


我 们 可 以 把 原型 向 上 





closest pvector.epsilon = epsilon 
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print "class id Nt Final Prototype Vector\n" 
for p vector in p vectors: 
print p vector.class id,'Nt',p vector.p vector 




















第 7 步 把 原型 向 量 应 用 到 实践 里 来 做 预测 。 





predicted y = [find class id(instance,p vectors) for instance in x ] 














我 们 把 一 个 点 和 所 有 学 习 过 的 原型 向 量 传递 给 find class id 函数 , 用 它 来 获取 预 
测 的 类 别 ID. 


最 终 ， 我 们 输出 预测 结果 来 生成 分 类 报告 。 





iu 





print classification report(y,predicted y,target names-['Iris-WN 
Setosa','Iris-Versicolour', 'Iris-Virginica']) 








scikit-learn 库 提 供 的 classification report 函数 可 以 方便 地 查看 分 类 准 
确 度 分 数 ， 如 图 5-3 所 示 。 














precision recall fi-score support 


Iris-Setosa 1.00 1.00 1.00 5e 
Iris-Versicolour 0.92 e.98 0.95 50 
Iris-Virginica 0.98 50 


avg / total 0.97 Y 3 15e| 








E] 5-3 


分 类 结果 相当 准确 ， 不 过 请 记 住 我 们 并 没有 保留 一 个 独立 的 测试 集 。 二 万 不 要 在 训练 
数据 上 测试 模型 的 精度 ， 而 要 采用 与 训练 方法 无 关 的 测试 集 。 本 文 的 做 法 只 是 出 于 说 明 
目的 。 


5.5.4 更 多 内 容 


记 住 ， 这 个 技术 不 像 其 他 分 类 方法 那样 包含 任何 优化 条 件 , 因此 对 于 生成 的 原型 向 量 ， 
很 难 判断 其 好 坏 。 


本 节 采 用 随机 数 来 初始 化 原型 向 量 , 我 们 也 可 以 使 用 k-means 算法 来 初始 化 原型 向 量 。 
5.5.5 参考 资料 


第 5 章 “ 数 据 挖 气 










































































海底 捞 针 ”中 5.4 节 “ 用 k-means 进行 数据 聚 类 ”的 相关 内 容 。 
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5.6 在 单 变量 数据 中 找 出 异常 点 

















数据 集中 远离 大 部 分 数据 点 的 点 就 是 异常 点 。 数 和 














如 果 算 法 受到 它们 的 影响 ， 可 能 会 产生 错误 的 结果 或 推论 。 处 型 











的 算法 也 很 重要 。 












































中 科学 的 应 / 











TEES 


它们 十 分 重 











“异常 点 检测 对 于 许多 领域 的 应 用 都 是 非常 重要 的 ， 包 括 其 诈 检 测 (Bolton, 2002), 
计算 机 网 络 入 侵 和 瓶颈 的 鉴别 (Lane, 1999), 电子 商务 中 的 犯罪 行为 和 检测 可 疑 行为 (Chiu， 
2003)。” 出 自 Jayakumar 和 Thomas 的 《A New Procedure of Clustering Based on 
Multivariate Outlier Detection), 发 表 于 《Journal of Data Science) 2013 年 11 期 ， 第 69 一 84 页 。 


本 节 先 介绍 在 单 变量 数据 中 检测 异常 点 ， 后 面 再 介绍 多 变量 和 文本 数据 中 的 异常 点 
































检测 。 
5.6.1 准备 工作 





本 节 将 介绍 以 下 儿 种 在 单 变量 数据 中 检测 异常 点 的 方法 。 




















。 绝对 中 位 差 。 






























































加 














我 们 将 介绍 如 何 利 























平均 值 加 或 减 3 倍 标准 差 。 
j 这 些 方法 找 出 单 变量 数据 中 的 异常 点 



































异常 点 的 数据 集 ， 用 来 体验 算法 。 


rim 








import numpy as np 


import matplotlib.pyplot as plt 


n samples = 100 


fraction of outliers = 0.1 


number inliers = int ( (1-fraction of outliers) 


number outliers - 





创建 的 100 个 数据 点 





n samples - number inliers 

















其 中 有 10% 是 导 常 点 。 














~ 


# 从 正 态 分 布 中 采样 一 些 数据 


normal data = np.random.randn(number inliers,1) 

















标准 差 为 1， 下 面 的 代码 可 以 验证 这 一 点 。 














用 NumPy 的 random 模块 中 的 randan 函数 来 产生 有 效 数据 ， 











。 开 始 之 前 ， 先 创建 一 个 带 














* n samples ) 





布 是 平均 值 为 0, 
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# 打印 输出 平均 值 和 标准 差 来 确认 输入 数据 的 状态 

mean = np.mean(normal data,axis-0) 

std = np.std(normal data,axis-0) 

print "Mean -($0.2f) and Standard Deviation ($0.2f)"$ (mean[0],std[0]) 








用 NumPy 的 函数 计算 出 平均 值 和 标准 差 ， 并 打印 输出 结果 ， 显 示 如 下 。 





Mean =(0.24) and Standard Deviation (0.90) 


如 你 所 见 ， 平 均值 接近 0， 标 准 差 接近 1. 


现在 来 制作 一 些 异 常 点 ， 大 小 为 100 的 数据 集 的 10%， 即 10 个 数据 点 。 我 们 在 -9 到 9 
之 间 的 均匀 分 布 中 进行 采样 ， 此 区 间 内 的 点 被 选中 的 几率 是 一 样 的 。 把 有 效 数 据 和 异常 点 
连接 起 来 ， 并 在 运行 异常 点 检测 程序 之 前 绘制 出 它们 的 散 点 图 。 


# 创建 异常 点 数据 




















outlier data = np.random.uniform(low=-9,high=9,size= (number outliers,1)) 
total data = np.r [normal data,outlier data] 

print "Size of input data = ($d,$d)"$(total data.shape) 

# 请 仔细 查看 数据 

plt.cla() 

plt.figure(1) 





plt.title("Input points") 








plt.scatter(range(len(total data)),total data,c-'b') 
生成 的 图 形 如 图 5-4 Przn 
10 Input points 
8 "s | 
6 s 
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y 轴 是 我 们 产生 的 真实 数据 ，x 轴 是 运行 数 。 你 可 以 试 着 从 图 中 挑 出 你 认为 的 异常 




















并 和 我 们 稍 后 的 程序 结果 比 对 一 下 。 
5.6.2 ”操作 方法 




















1. 先 从 绝对 中 位 差 开 始 ， 绘 出 数据 图 ， 并 将 异常 点 标 为 红色 。 
# 绝对 中 位 差 


median = np.median(total data) 
b = 1.4826 


mad = b * np.median(np.abs(total data - median)) 


























outliers = [] 
绘图 实用 技巧 
outlier index = [] 
print "Median absolute Deviation = $.2f"$ (mad) 
lower limit = median - (3*mad) 


upper limit = median + (3*mad) 
print "Lower limit = $0.2f, Upper limit = $0.2f"$(lower 
limit,upper limit) 








for i in range(len(total data)): 
if total data[i] » upper limit or total data[i] « lower limit: 
print "Outlier $0.2f"$(total data[i]) 
outliers.append(total data[i]) 
outlier index.append (i) 


plt.figure(2) 

plt.title("Outliers using mad") 
plt.scatter(range(len(total data)),total data,c-2'b') 
plt.scatter(outlier index,outliers,c-'r') 

plt.show() 


2. 接着 是 平均 值 加 或 减 3 倍 标准 差 ， 绘 出 数据 图 ， 并 将 异常 点 标 为 红色 。 








# 标准 差 

std = np.std(total data) 
mean = np.mean(total data) 
b= 3 

outliers = [] 
outlier_index = [ 


lower limt = mean-b*std 


upper limt = meantb*std 





print "Lower limit = $0.2f, Upper limit = $0.2f"$(lower 


点 


4v 
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limit,upper limit) 
for i in range(len(total data)): 
x = total data[i] 
if x » upper limit or x « lower limt: 
print "Outlier $0.2f"£$(total data[i]l) 
outliers.append(total data[i]) 
outlier index.append (i) 


plt.figure(3) 

plt.title("Outliers using std") 
plt.scatter(range(len(total data)),total data,c-'b') 
plt.scatter(outlier index,outliers,c-'r') 
plt.savefig("B04041 04 10.png") 

plt.show() 


5.03 ”工作 原理 


第 1 步 我 们 采用 绝对 中 位 差 来 检测 数据 里 的 异常 点 。 





























median = np.median(total data) 
b = 1.4826 
mad = b * np.median(np.abs(total data - median)) 






































我 们 先 用 NumPy 的 median 函数 计算 数据 集 的 中 位 值 ， 然 后 定义 一 个 值 为 1.4826 的 
变量 ， 用 它 来 乘 以 绝对 中 位 差 的 值 ， 最 后 得 到 每 个 数据 点 进行 上 述 计算 的 结果 。 


如 果 一 个 点 大 于 或 小 于 3 倍 的 绝对 中 位 差 ， 那 它 就 被 视 为 异常 点 。 









































lower limit = median - (3*mad) 


upper limit = median + (3*mad) 


print "Lower limit = $0.2f, Upper limit = $0.2f"$(lower limit,upper limit) 








às 


























这 样 我 们 就 算出 绝对 中 位 差 的 上 限 和 下 限 ， 然 后 采用 下 面 的 代码 把 所 有 的 点 分 为 有 效 
数据 点 或 异常 点 。 











for i in range(len(total data)): 
if total data[i] » upper limit or total data[i] « lower limit: 
print "Outlier $0.2f"$(total data[i]) 
outliers.append(total data[i]) 
outlier index.append (i) 
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最 终 我 们 得 到 一 个 名 为 outliers 的 列表 ， 里 面 存 着 所 有 的 异常 点 。 此 外 还 需要 另 一 
个 独立 的 列表 outlier index， 用 来 保存 它们 的 索引 ， 这 是 为 了 让 后 续 步 又 的 绘图 比较 
方便 。 

绘制 出 来 的 图 里 包括 原始 的 点 和 异常 点 ， 如 图 5-5 所 示 。 

















10 Outliers using mad 

















图 5-5 
图 中 红色 的 点 就 是 算法 归 类 为 异常 点 的 数据 。 
第 2 步 中 ， 我 们 写 了 第 2 种 算法 : 平均 值 加 或 减 3 倍 的 标准 差 。 




















std = np.std(total data) 
mean = np.mean(total data) 
b= 3 








LL 
oy 


我 们 计算 得 到 数据 集 的 标准 差 和 平均 值 ， 然 后 设置 b=3， 从 算法 的 名 字 可 以 看 上 
就 构成 所 需 的 3 倍 标准 差 。 





lower limt = mean-b*std 
upper limt = meantb*std 


print "Lower limit = $0.2f, Upper limit = $0.2f"$(lower limit,upper limit) 


for i in range(len(total data)): 
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x = total data[i] 

if x » upper limit or x « lower limt: 
print "Outlier $0.2f"$(total data[il) 
outliers.append(total data[i]) 
outlier index.append (i) 


这 样 就 通过 平均 值 减 去 或 加 上 3 倍 标准 差 得 到 上 限 和 下 限 的 值 ， 用 这 些 值 在 for 循环 
体 中 把 所 有 的 点 分 为 有 效 数 据点 或 异常 点 ， 并 分 别 保存 到 outliers 和 outlier index 
这 两 个 列表 中 ， 用 来 绘制 图 形 。 


最 后 绘 出 的 异常 点 图 形 如 图 5-6 所 示 。 























10 Outliers using std 
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5.6.4 更 多 内 容 


按照 异常 点 的 定义 一 一 在 数据 源 中 远离 其 他 点 的 那些 点 ， 评 估 数 据 集 的 中 心 及 其 分 布 
将 有 助 于 检测 异常 点 。 之 前 介绍 过 的 方法 采用 平均 值 和 中 位 值 作为 数据 集 的 大 致 中 心 ， 采 
用 标准 差 和 绝对 中 位 差 作为 数据 集 的 分 布 。 数 据 的 分 布 也 被 称 为 数据 范围 。 
我 们 来 推理 下 为 什么 前 述 的 方法 能 检测 出 异常 点 ， 从 使 用 标准 差 的 方法 开始 。 对 于 高 
斯 分 布 数据 ，68.27% 的 数据 集中 在 一 个 标准 差 的 范围 内 ，95.45% 在 两 个 标准 差 的 范围 内 ， 
99.73% 在 3 个 标准 差 的 范围 内 。 因 此 ， 根 据 这 个 判 据 ， 和 平均 值 相 差 超 过 3 倍 标准 差 的 点 
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被 归 类 到 异常 点 。 不 过 ， 这 个 方法 并 非 无 懈 可 击 ， 我 们 来 看 一 个 小 示例 。 
从 正 态 分 布 中 采样 8 个 数据 点 ， 让 它们 的 平均 值 为 0， 标 准 差 为 1。 
我 们 可 以 用 NumPy 中 的 random 函数 来 快速 生成 这 些 数 。 




































































np.random.randn(8) 





返回 的 数 如 下 。 











-1.76334861, -0.75817064, 0.44468944, -0.07724717, 
0.12951944,0.43096092, -0.05436724, -0.23719402 














现在 手工 加 入 两 个 异常 点 到 列表 中 ， 例 如 45 和 69. 
现在 数据 集 如 下 所 示 。 

















-1.763348607322289, -0.7581706357821458, 0.4446894368956213, 
-0.07724717210195432, 0.1295194428816003, 0.4309609200681169, 
-0.05436724238743103, -0.23719402072058543, 45, 69 


这 个 数据 集 的 平均 值 为 11.211， 标 准 差 为 23.523。 
根据 上 限 的 算法 ， 平 均值 加 3 倍 标准 差 ， 结 果 是 0121143x23.523-81.78. 
按照 前 述 的 上 限 规则 ，45 和 69 这 两 个 点 都 不 是 异常 点 ! 平均 值 和 标准 差 对 于 评估 数 
据 集 的 中 心 和 范围 都 不 够 强壮 ， 它 们 太 容 易 受 异 常 点 干扰 了。 如 果 我 们 每 次 用 一 个 极端 的 
值 蔡 换 掉 一 个 点 ， 进 行 n 次 之 后 ， 平 均值 和 标准 差 对 数据 集 的 评估 会 发 生 巨 大 偏差 。 这 笠 
评估 特性 叫 作 有 限 样 本 击 穿 点 。 
有 限 样本 击 穿 点 的 定义 是 一 个 比例 值 ， 对 超过 这 个 比 
ZS 例 值 的 样本 进行 替换 ， 评 估 方 法 将 无 法 对 数据 进行 精 
确 描 述 。 
因此 ， 对 于 平均 值 和 标准 差 的 方法 ， 有 限 样本 击 穿 点 是 0%， 因 为 即使 只 
样本 蔡 换 掉 数 据 集中 的 一 个 点 ， 对 数据 集 的 评估 也 会 发 生 巨大 变化 。 
相 比 来 说 ， 中 位 值 作为 评估 值 要 健壮 得 多 ， 它 是 在 升序 排序 的 多 个 观察 值 中 位 于 中 间 
的 观察 值 。 要 想 彻底 改变 中 位 值 ， 我 们 要 蔡 换 掉 远 离 中 位 值 的 一 半 观 察 值 ， 有 限 样本 击 穿 
点 是 5096. 


下 面 的 论文 归纳 了 绝对 中 位 差 的 一 些 方法 ， 请 参见 如 下 内 容 。 









































































































































一 个 超大 的 
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Leys.C 等 人 于 2013 年 发 表 在 (Journal of Experimental Social Psychology》 上 的 《Detecting 
outliers: Do not use standard deviation around the mean, use absolute deviation around the 
median》， 链 接地 址 : http://dx.doi.org/10.1016/j.jesp.2013.03.013。 


5.6.5 参考 资料 
第 3 章 “ 数 据 分 析 一 ”探索 和 争鸣 ”中 3.6 节 “ 实 施 概 要 统计 及 绘图 ”的 相关 内 容 。 


5.7 使 用 局 部 异常 因子 方法 发 现 异常 点 























局 部 异常 因子 (Local Outlier Factor, LOF) 也 是 一 种 异常 检测 算法 ， 它 对 数据 实例 的 
局 部 密度 和 邻居 进行 比较 ， 判 断 这 个 数据 是 否 属于 相似 的 密度 区 域 ， 它 适合 从 那些 簇 个 数 
未 知 ， 徐 的 密度 和 大 小 各 不 相同 的 数据 中 筛选 异常 点 。 这 种 算法 从 K 最 近邻 CK-Nearest 
Neighbors, KNN) 启发 而 来 。 


5.7. 准备 工作 


上 一 节 讨 论 的 是 在 单 变量 数据 中 检测 异常 点 ， 这 节 则 要 讨论 如 何 从 多 变量 数据 中 检测 
异常 点 。 我 们 使 用 一 个 小 型 数据 集 来 帮助 大 家 理解 LOF 算法 。 


我 们 先 创 建 一 个 5x2 的 矩阵 ， 注 意 ， 最 后 一 个 元 组 是 异常 点 ， 请 看 绘 什 
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的 散 点 图 。 





from collections import defaultdict 
import numpy as np 


instances = np.matrix([[0,0],[0,1],[1,1],[1,0], [5,0]]) 


import numpy as np 





import matplotlib.pyplot as plt 


= np.squeeze(np.asarray(instances[:,0])) 


y = np.squeeze (np.asarray(instances[:,1])) 


plt.cla() 
plt.figure(1) 
plt.scatter (x,y) 
plt.show() 





绘制 的 图 形 如 图 5-7 所 示 。 
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图 5-7 








LOF 计算 出 每 个 点 的 局 部 密度 ， 通 过 它 与 K 最 近邻 的 点 的 距离 来 评估 点 的 局 部 密度 ， 
并 与 邻居 的 密度 进行 比较 ， 以 此 找 出 蜡 常 点 一 一 异常 点 比邻 居 的 密度 要 低 得 多 。 
为 了 理解 LOF， 我 们 得 先 了 解 一 些 术 语 的 定义 。 


























。 对 象 P 的 K 距 离 ， 对 象 P 与 它 第 KK 个 最 近邻 的 距离 ，K 是 算法 的 参数 。 




















vA 





e P 的 玉 距 离 邻居 : 到 了 P 的 距离 小 于 或 等 于 P 到 第 K 个 最 近邻 的 距离 的 所 有 对 象 的 


集合 Q。 








。 从 P 到 QQ 的 可 达 距 离 : P 与 它 的 第 个 最 近邻 的 距离 和 P 与 Q 之 间 的 距离 中 的 最 
大 者 。 下 面 的 符号 可 以 帮助 理解 。 


Reachability distance (PRQ) 




















= > maximum(K-Distance(P), Distance (P,Q)) 





P 的 局 部 可 达 密 度 (Local Reachability Density of P, LRD (P)): K 距离 邻居 和 K 
邻居 的 可 达 距 离 之 和 的 比值 。 

















与 其 令 


A 





e P 的 局 部 异常 因子 (Local Outlier Factor of P LOF (P)): P 与 它 的 K 最 近邻 的 局 
部 可 达 性 的 比值 的 平均 值 。 


5.7.2 ”操作 方法 


1. 获取 点 两 两 之 间 的 距离 pairwise distances. 














k= 2 
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distance = 'manhattan' 


from sklearn.metrics import pairwise distances 


dist = pairwise distances(instances,metric-distance) 











， 使 用 heapq 来 获得 K 最 近邻 。 


[UT 
3 


2. WAKE 
# 计算 和 距离 


import heapq 

k distance = defaultdict (tuple) 

# 对 每 个 点 进行 计算 

for i in range(instances.shape[0]): 
获得 它 和 所 有 其 他 点 之 间 的 距离 

为 了 方便 ， 将 数组 转 为 列表 
distances = dist[i].tolist() 
获得 K 最 近邻 
ksmallest = heapq.nsmallest(k*1,distances)[1:][k-1] 
获取 它们 的 索引 号 

ksmallest idx = distances.index(ksmallest) 

记录 下 每 个 点 的 第 K 个 最 近邻 以 及 到 它 的 距离 


k distance[i]-(ksmallest,ksmallest idx) 





1 























3. 计算 K 距离 邻居 。 





def all indices(value, inlist): 


out indices = [] 
idx = -1 
while True: 
LX y 
idx = inlist.index(value, idx-*1) 


out indices.append(idx) 





except ValueError: 
break 
return out indices 
# 计算 KK 距离 邻居 
import heapq 
k distance neig = defaultdict(list) 
# 对 每 个 点 进行 计算 
for i in range(instances.shape[0]): 
# 获得 它 到 所 有 邻居 点 的 距离 
distances = dist[i].tolist() 
print "k distance neighbourhood",i 
print distances 
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获得 从 第 1 到 第 K 的 最 近邻 

ksmallest = heapq.nsmallest(k*1,distances)[1:] 
print ksmallest 

ksmallest set = set(ksmallest) 

print ksmallest set 

ksmallest idx = [] 

获取 K 里 最 小 的 元 素 的 索引 号 


for x in ksmallest set: 





ksmallest idx.append(all indices (x,distances)) 


将 列表 的 列表 转 为 列表 























对 每 个 点 保存 其 和 距离 邻居 
k distance neig[i].extend(zip(ksmallest,ksmallest idx)) 


4. 计算 可 达 距 离 和 LRD。 


# 局 部 可 达 密 度 
local reach density = defaultdict (float) 
for i in range(instances.shape[0]): 


5. 





# LRD 的 分 子 ，K 距离 邻居 的 个 数 

no neighbours = len(k distance neig[i]) 
denom sum = 0 

# 可 达 距 离 求 和 

for neigh in k distance neig[i]: 


# PP 的 KK 距离 和 P 与 0 的 距离 中 的 最 大 者 





denom sum+=max(k distance[neigh[1]][0],neigh[0]) 
local reach density[i] = no neighbours/ (1.0*denom sum) 
计算 LOF。 


lof list =[] 
# 计算 局 部 异常 因子 


for i in range(instances.shape[0]): 


lrd sum = 0 
rdist sum = 0 
for neigh in k distance neig[i]: 
lrd sum+=local reach density[neigh[1]] 
rdist sum-*-max(k distance[neigh[1]][0],neigh[0]) 
lof list.append((i,lrd sum*rdist sum)) 


5.73 ”工作 原理 





NUT 


^ 


Fi 
IJ 


1 步 中 ,我 们 选择 了 Manhattan 距离 作为 度量 , 设置 K 值 为 2， 即 找到 数据 点 的 第 2 








ksmallest idx = [item for sublist in ksmallest idx for item in sublist] 
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个 最 近邻 。 
接着 要 计算 元 组 中 的 两 两 距离 ， 两 两 距离 的 相似 度 被 保存 在 dist 矩阵 中 ， 它 的 形态 
如 下 所 示 。 
































>>> dist.shape 
(5, 5) 
>>> 





3 





这 是 一 个 5X5 的 矩阵 ， 行 和 列 都 是 独立 的 元 组 ， 单 元 格 的 值 则 是 它们 间 的 距 
第 2 步 中 导入 了 heapg。 





import heapq 





heapq 是 一 种 数据 结构 ， 也 称 为 优先 队列 。 它 和 普通 队列 很 相似 ， 除 了 每 个 元 素 都 关 
联 着 一 个 优先 级 ， 高 优先 级 的 元 素 比 低 优先 级 的 要 优先 操作 。 
请 查看 维基 百科 中 关于 优先 队列 的 详细 介绍 ， 参 见 : 


http://en.wikipedia.org/wiki/Priority queue. 


















































Python 的 heapd 文档 请 参见 : https://docs.python.org/2/library/heapq.html . 





k distance = defaultdict (tuple) 








接着 我 们 定义 了 一 个 字典 ， 键 是 元 组 ID, 值 则 是 元 组 到 它 的 第 
示例 中 ， 要 计算 到 第 2 个 最 近邻 。 


然后 进入 for 循环 来 计算 所 


近邻 的 距离 。 本 





xin 


K^ 


W 












































Tr 
c 
Nu 
qur 


个 最 近邻 的 距离 。 











distances = dist[i].tolist() 


























从 距离 矩阵 中 抽取 出 第 i 行 ， 你 会 发 现 ， 第 i 行 包含 了 对 象 1 到 所 有 其 他 点 的 距离 。 记 
fi. "ooh GD 表示 它 到 自己 的 距离 ， 在 下 一 个 步骤 中 要 忽略 掉 这 个 值 。 为 了 方便 ， 
我 们 把 数组 转换 为 列表 。 请 看 示例 以 帮助 理解 ， 距 离 矩 阵 如 下 。 




























































































>>> dist 
array(I[I[ 


[ 


Cm qp ÁN pe 
~ ~ ~ ~ ~ 
oO Wi on 
~ ~ ~ ~ ~ 
Cl” NS: 
~ ~ ~ ~ ~ 
E O DY 
~ ~ ~ ~ ~ 
Cs Oo Oi 


[ 
[ 
[ 
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假定 我 们 正 处 于 for 循环 的 第 1 次 循环 中 ， 此 时 i=0〔 记 住 Python 的 索引 从 0 开始 )。 
这 时 ， 距 离 列 表 应 如 下 所 示 。 


























我 们 需要 的 是 第 KK 个 最 近邻 ， 也 就 是 第 2 个， 因为 程序 开始 的 地 方 设置 了 K-2. 

注意 ， 索 引号 1 和 3 的 值 都 是 1， 它 们 都 有 可 能 是 我 们 的 第 K 个 最 近邻 。 

现在 我 们 要 使 用 heapa.nsmallest 函数 ， 记 住 neapq 是 普通 的 队列 ， 但 每 个 元 素 
都 关联 着 一 个 优先 级 。 本 例 中 ， 元 素 的 值 就 是 它们 的 优先 级 。 当 我 们 需要 最 小 的 n 个 时 ， 
heapq 将 返回 给 我 们 最 小 的 那些 元 素 。 


# 获得 第 区 个 最 近邻 
ksmallest = heapq.nsmallest(k*1,distances)[1:][k-1] 


































































































我 们 来 看 看 heapq .nsmallest 函数 都 做 了 些 什么 。 





>>> help(heapq.nsmallest) 
Help on function nsmallest in module heapd: 


nsmallest(n, iterable, key-None) 





Find the n smallest elements in a dataset. 








Equivalent to: sorted(iterable, key-key)[:n] 











它 从 给 定 的 数据 集中 返回 最 小 的 n 个 元 素 ， 本 例 中 为 第 2 个 最 近邻 。 此 外 ， 之 前 提 到 
过 要 避免 〈ii)。 因 此 ， 我 们 得 将 n=3 传 给 heapd.nsmallest， 这 让 它 返回 3 个 最 小 的 
元 素 。 然 后 对 列表 求 子 集 以 排除 第 1 个 元 素 注意 nsmallese 函数 调用 后 面 的 [1:])， 最 
后 检索 出 第 2 个 最 近邻 (注意 [1:] 之 后 的 区 -1])。 


我 们 还 得 获取 第 2 个 最 近邻 的 索引 号 ， 并 将 它 保存 到 字典 中 。 


# 获取 索引 号 
ksmallest idx = distances.index(ksmallest) 
# 记录 下 每 个 点 的 第 天 个 最 近邻 以 及 到 它 的 距离 


k distance[i]-(ksmallest,ksmallest idx) 




































































打印 输出 字典 的 结果 如 下 。 


print k distance 
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defaultdict(«type 'tuple'», (0: (1.0, 1), 1: (1.0, 0), 2: (1.0, 1), 3: 
(1.0, 0), 4: (5.0, 0)]) 





























元 组 中 有 两 个 元 素 : 距离 及 其 矩阵 中 的 元 素 索 引号 。 对 于 实例 0， 它 的 第 2 近邻 是 索 
引号 为 1 的 元 素 。 


计算 出 所 有 数据 点 的 K 距离 后 ， 我 们 才能 继续 查找 K 距离 邻居 。 
第 3 步 找 出 了 每 个 数据 点 的 K 距离 邻居 。 
# 计算 距离 邻居 


import heapq 
























































k distance neig = defaultdict(list) 


























和 之 前 步骤 类 似 ， 我 们 导入 了 heapq 模块 ， 声 明了 一 个 字典 来 存放 K 距离 邻居 的 详 
细 内 容 。 我 们 再 复习 一 下 什么 是 K 距离 邻居 。 
P 的 KK 距离 邻居 即 : 到 P 的 距离 小 于 或 等 于 P 到 第 K 个 最 近邻 的 距离 的 所 有 对 象 的 集 


合 Q。 
























































distances = dist[i].tolist() 

# ”获得 从 第 1 到 第 区 的 最 近邻 

ksmallest = heapq.nsmallest (k*1,distances)[1:] 
ksmallest set = set(ksmallest) 














前 两 行 看 起 来 有 点 熟悉 ， 它 和 前 面 步骤 里 的 操作 是 一 样 的 。 请 看 第 2 行 ， 我 们 用 n=3 
(本 例 中 即 Kt1) 调用 了 nsmallest 函数 ， 但 选择 的 是 输出 列表 里 除了 第 1 个 之 外 的 所 有 
元 素 〈 这 是 为 什么 ? 答案 在 前 面 的 步骤 中 说 明 过 了 )。 

现在 看 看 实际 打印 出 来 的 结果 ， 和 之 前 一 样 ， 我 们 假定 在 循环 中 i-0 的 情形 下 查看 第 
1 个 数据 点 或 者 说 元 组 。 

输出 的 距离 结果 如 下 。 































































































7 





[05:04 TO 2 OF 14205. 5:0] 


heapq.nsmallest 隙 数 返 回 的 结果 如 下 。 


这 就 是 第 1 到 第 K 个 最 近邻 的 距离 ， 我 们 还 需要 知道 它们 以 简单 列表 形式 保存 的 索引 
号 。index 函数 只 返回 第 1 个 匹配 的 结果 ， 因 此 ， 我 们 编写 了 all indices 函数 来 检索 
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所 有 的 索引 号 。 














def all indices(value, inlist): 
out indices - [] 

i 

while True: 


idx - 


try 
idx = inlist.index(value, idx-*1) 


out indices.append(idx) 





except ValueError: 
break 


return out indices 

















Tz 








all indices 使 用 value Ñ list 参数 返回 value 在 列表 上 











然后 我 们 将 ksmallest 转换 为 集合 。 


ksmallest set = set(ksmallest) 











出 现时 的 所 有 索引 号 。 








这 样 ，[1.0,1.0] 转 为 了 集合 ([1.0])， 现 在 使 用 for 循环 ， 即 可 找 出 元 素 的 所 有 索引 号 。 








# 查找 K 个 最 小 元 素 的 索引 号 
for x in ksmallest set: 


ksmallest idx.append(all indices (x,distances)) 


我 们 找到 两 个 对 应 于 元 素 值 1.0 的 索引 号 : 1 和 2。 


ksmallest idx - 








[item for sublist in ksmallest idx for item in sublist] 


接 下 来 的 for 循环 将 列表 的 列表 转换 为 列表 。 all_indices KORHERR, 我 们 





将 这 个 列表 “作为 元 素 ) 加 入 到 ksmallest_idx 列表 上 ， 因 而 使 
最 后 把 K 个 最 小 邻居 添加 到 字典 中 。 























k distance neig[i]. 























] for 循环 将 其 拉平 。 





xtend(zip(ksmallest,ksmallest idx)) 























接着 添加 元 组 ， 它 的 第 1 个 条 目 是 距离 ， 第 2 个 是 最 近邻 的 索引 号 ， 我 们 把 这 个 K 距 


离 邻 居 的 字典 打印 出 来 。 
defaultdict(«type 'list'», (0: [(1.0, 1), (1.0, 3)], [(1.0, 0), 
(1.0, 2)], 2: [(1.0, 1), (1.0, 3)], 3: [(1.0, 0), (1.0, 2)], 4: [(4.0, 
3), (5.0, ORT 





第 4 步 中 ， 我 们 用 可 达 距 离 计 算出 LRD， 复 习 下 这 两 个 概念 。 
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。 从 P 到 QQ 的 可 达 距 离 : P 与 它 第 K 个 最 近邻 的 距离 和 了 P 与 Q 之 间 的 距离 中 的 最 大 
者 。 下 面 的 符号 可 以 帮助 理解 。 








Reachability distance (PRQ) = > maximum(K-Distance(P), Distance(P,Q)) 




















。 了 的 局 部 可 达 密 度 LRD: K 距离 邻居 和 与 其 邻居 的 可 达 距 离 之 和 的 比值 。 


#Local reachable density 
local reach density = defaultdict(float) 


先 声 明 一 个 字典 来 保存 LRD. 


for i in range(instances.shape[0]): 
LRD 的 分 子 ，K 距离 邻居 的 个 数 
no neighbours = len(k distance neig[i]) 
denom sum = 0 
可 达 距 离 求 和 
for neigh in k distance neig[i]: 
P 的 KK 距离 和 P 与 0 的 距离 中 的 最 大 者 
denom sum+=max (k distance[neigh[1]][0],neigh[0]) 
local reach density[i] = no neighbours/ (1.0*denom sum) 


























对 于 每 个 点 ， 我 们 先 找 出 它 的 K 距离 邻居 。 例 如 ， 当 i=0 BD. 分子 即 
len (k_distance_neig[0])， 值 为 2。 

接着 在 内 层 for 循环 里 进行 分 母 的 计算 。 我 们 算出 每 个 K 距离 邻居 的 可 达 距 离 ， 得 到 
的 比值 保存 在 local reach density 字典 中 。 

最 后 的 第 5 步 ， 我 们 算出 每 个 点 的 LOF。 















































for i in range(instances.shape[0]): 
lrd sum = 0 
rdist sum = 0 
for neigh in k distance neig[i]: 
lrd sum*-1local reach density[neigh[1]1]] 
rdist sum-*-max(k distance[neigh[1]][0],neigh[0]) 
lof list.append((i,lrd sum*rdist sum)) 
































对 每 个 数据 点 ， 我们 计算 出 它 的 邻居 的 LRD 和 值 ， 以 及 它 和 它 邻 居间 的 可 达 距 离 和 值 ， 
然后 把 两 者 相 乘 来 算出 LOF。 


一 个 点 的 LOF 值 很 高 ， 则 认为 它 是 一 个 异常 点 。 打 印 输出 lof list 结果 如 下 。 














[(0, 4.0), (1, 4.0), (2, 4.0), (3, 4.0), (4, 18.0)] 
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如 你 所 见 ， 最 后 一 个 点 的 LOF 值 特 别 高 ， 它 就 是 异常 点 。 
5.7.4 更 多 内 容 


请 参考 以 下 论文 来 加 深 对 LOF 的 理解 。 
Markus M. Breunig,、Hans-Peter Kriegel, Raymond T. Ng. Jörg Sander 等 著 的 《LOF: 


Identifying Density-Based Local Outliers》 发 表 在 2000 年 于 美国 德 克 萨 斯 州 达 拉 斯 举办 的 
ACM SIGMOD 2000 年 数据 管理 国际 会 议 上 。 















































6. 





在 这 一 章 中 ， 我 们 


第 6 章 
机 器 学 习 1 


各 探讨 以 下 主题 。 





。 为 建 模 准备 数据 





。 碍 找 最 近邻 























。 用 朴素 贝 叶 斯 分 类 文档 
。 构建 决策 树 解 决 多 类 问 是 


1 简介 





E 





上 一 章 介绍 了 一 些 无 监督 技术 如 聚 类 、 学 习 向 量 量化 等 ， 本 章 主要 关注 有 监督 的 学 习 


技术 。 我 们 从 分 类 问题 











这 就 是 分 类 算法 。 


乡下 的 分 类 问题 。 





情 
























































开始 ， 然 后 再 研究 回归 。 下 一 章 再 讨论 输入 为 一 系列 记录 或 实例 的 


























对 于 每 个 记录 或 者 实例 ， 它 可 以 表示 成 集合 (x,y)， 其 中 x 是 一 系列 属性 ，y 则 是 相应 的 
类 别 标签 。 


学 习 一 个 目标 函数 FE， 然后 把 每 个 记录 的 属性 集合 映射 到 一 个 预定 义 的 类 别 标签 y 上 ， 









































分 类 算法 的 大 致 步骤 如 下 。 




















1. 找到 一 个 合适 的 算法 。 











2. 从 训练 集中 学 习 






































一 种 模型 ， 然 后 用 测试 集 验 证 这 个 模型 。 














3. 应 用 这 个 模型 来 预测 未 知 的 实例 或 记录 。 
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NEIERE, AEH 6.3 节 “ 查 找 最 近邻 ”会 更 详细 地 讲解 混淆 矩阵 。 






















































































第 1 步 是 要 找到 合适 的 分 类 算法 ， 这 并 没有 定式 ， 可 能 要 经 历 反 复 的 试验 和 失败 。 在 
此 之 后 ， 创 建 一 个 训练 集 和 测试 集 用 来 给 算法 学 习 提 供 一 个 模型 ， 也 即 预定 义 的 目标 函数 
F。 用 训练 集 生成 模型 后 ， 再 用 测试 集 数据 对 模型 进行 验证 。 通 常 ， 我 们 会 在 这 个 过 程 中 使 











本 章 将 学 习 如 何 把 数据 集 分 为 训练 集 和 测试 集 , 我们 条 用 一 种 适合 懒 人 的 分 类 算法 一 一 K 
近邻 算法 ， 随 后 介绍 朴素 贝 叶 斯 分 类 器 ， 同 时 详细 描述 如 何 用 决策 树 解 决 多 分 类 问题 。 本 节 涉 


及 的 各 种 算法 可 不 是 随机 选择 的 ， 以 上 3 种 算法 不 但 能 处 理 二 元 问题 ,也 都 能 处 理 多 分 类 问题 




















一 一 实例 可 能 属于 多 个 类 别 标签 中 的 某 一 个 例 可 以 属于 两 个 或 多 个 类 别 标签 。 


6.2 为 建 模 准 备 数 据 




















本 节 将 介绍 在 分 类 问题 里 给 定 的 数据 集中 如 何 创建 训练 集 和 测试 集 ， 测 试 集 对 于 模型 
应 该 是 透明 的 。 在 实践 场景 中 , 我 们 一 般 会 男 设 一 个 dev 数据 集 ，dev 代表 开发 数据 集 一 一 
我 们 在 成 功 建 模 后 用 它 对 模型 进行 调 优 。 模 型 是 从 训练 集中 训练 出 来 的 ， 然 后 用 dev 数据 




























































































集 来 度量 它 的 指标 如 准确 度 等 。 基 于 上 述 过 程 的 结果 ， 如 果 需 要 进一步 提高 ， 
深入 地 调 优 。 在 后 面 的 章节 里 ， 我 们 会 介绍 更 复杂 的 数据 分 割 
练 集 和 测试 集 。 


6.2.1 准备 工作 































































































模型 会 被 更 


不 仅仅 是 简单 地 分 为 训 








本 贡 将 采用 iris 数据 集 ， 它 很 适合 演示 相关 的 概念 ， 我 们 在 前 面 的 章节 9 
它 ， 对 它 很 熟悉 。 


6.2.3 ”操作 方法 


x 














# ”加 载 必 需 的 库 

from sklearn.cross validation import train test split 
from sklearn.datasets import load iris 

import numpy as np 


def get iris data(): 


Returns Iris dataset 


+ WR iris 数据 集 


data = load iris() 


FP 已 多 次 使 用 
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# 抽取 依赖 变量 和 独立 变量 
# y 是 类 别 标签 

+ x 是 实例 /记录 

x = data['data'] 

y 


= data['target'] 


# 为 了 方便 起 见 ， 我 们 将 其 合并 
+ 列 合并 


input dataset = np.column stack([x,y]) 


# 把 数据 搅乱 
# 我 们 希望 在 测试 集 和 训练 集中 的 记录 随机 分 布 





np.random.shuffle(input dataset) 


return input dataset 


我 们 采用 80/20 分 布 
80% 的 记录 用 来 训练 
20% 的 剩余 记录 用 来 做 测试 


train size = 0.8 








test size = 1-train size 


获取 数据 
input dataset = get iris data() 
分 割 数据 


train,test = train test split(input dataset,test size-test size) 





打印 出 原始 数据 集 的 大 小 
print "Dataset size ",input dataset.shape 
打印 出 训练 /测试 集 的 大 / 


print "Train size ",train.shape 








P2 





print "Test size",test.shape 
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这 个 步骤 很 简单 ， 我 们 要 检测 一 下 训练 集 和 测试 多 
比例 ， 这 是 一 个 常见 的 类 别 不 平衡 问题 。 











def get class distribution(y): 
non ow 
Given an array of class labels 
Return the class distribution 


Wm 
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distribution = {} 
set y = set (y) 
for y label in set y: 





no elements = len(np.where(y == y label) [0]) 
distribution[y label] = no elements 
dist percentage = (class label: count/(1.0*sum(distribution.WV 


values())) for class label,count in distribution.items())] 
return dist percentage 


def print class label split(train,test): 
"mmm 
Print the class distribution 
in test and train dataset 


y train = train[:,-1] 


train distribution = get class distribution(y train) 
print "MnTrain data set class label distribution" 
print " Mn" 








for k,v in train distribution.items(): 
print "Class label -$d, percentage records -$.2f"$(k,v) 


y test = test[:,-1] 
test distribution = get class distribution(y test) 


print "MnTest data set class label distribution" 
print " Mn" 








for k,v in test distribution.items(): 
print "Class label -$d, percentage records -$.2f"$(k,v) 


print class label split (train,test) 








我 们 来 看 看 如 何在 训练 集 和 测试 集 里 均匀 地 分 布 类 别 标签 。 
+ 执行 数据 分 割 


from sklearn.cross validation import StratifiedShuffleSplit 
stratified split = StratifiedShuffleSplit(input dataset[:,-1],test 
size-test size,n iter-1) 























for train indx,test indx in stratified split: 
train = input dataset[train indx] 
test = input dataset[test indx] 
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print class label split(train,test) 


623 ”工作 原理 


载 入 必需 的 库 之 后 ， 我 们 编写 了 一 个 函数 get iris _dqata， 方 便 用 来 加 载 iris 数据 
集 ; 然后 将 x 和 y 数组 链接 到 input dataset 数组 里 ; 接着 把 数据 集 的 数据 搅乱 使 得 记 
录 能 随机 地 分 布 到 测试 集 和 训练 集中 ， 这 个 函数 返回 一 个 包含 了 实例 和 类 别 标签 的 单独 的 
数组 。 

我 们 打算 把 80% 的 记录 归 入 训练 集 ， 剩 余 的 20% 作 为 测试 集 ， 用 train size 和 
test_size 这 两 个 变量 即 可 控制 训练 集 和 测试 集 的 比例 。 

我 们 先 调用 get iris data 函数 获得 输入 数据 ， 然 后 调用 scikit-learn H 
cross validation 模块 中 的 train test split 函数 把 输入 数据 分 为 两 块 。 

最 后 , 我 们 把 原始 数据 集 、 训 练 集 和 测试 集 的 大 小 都 打 : eI 
印 出 来 ， 如 图 6-1 所 示 。 ee 

原始 数据 有 150 个 行 和 5 个 列 , 注意 ! 其 实 只 有 4 个 属 | inal Dataset size (150, 5) 
性 ,第 5 个 列 是 类 别 标签 , 我 们 将 xM y 的 列 合并 起 来 了 。 CL 0 0 

如 你 所 见 ，150 行 中 的 80%， 也 就 是 120 条 记录 被 分 配 id 
到 训练 集 ， 分 割 训 练 集 和 测试 集 就 是 这 么 简单 。 

别 筷 了 这 是 一 个 分 类 问题 ， 对 于 给 定 的 未 知 示 例 或 记录 ， 算 法 要 训练 并 预测 出 它 的 正 
确 分 类 标签 。 为 了 完成 这 个 目标 ， 我 们 得 找到 算法 并 在 训练 中 均匀 分 布 各 个 类 别 。iris 里 共 
有 3 种 类 别 ， 它 们 必须 平衡 地 出 现 ， 我 们 来 看 看 算法 是 否 能 完成 这 点 。 

首先 定义 get class distribution 函数 ， 它 采用 y 的 类 别 标签 作为 参数 ， 返 回 
一 个 字典 ， 键 是 类 别 标签 ， 值 是 这 类 记录 数 占 总 数 的 百分比 分 布 。 这 样 ， 返 回 的 这 个 字典 
就 提供 了 类 别 标签 的 分 布 情况 ， 我 们 在 随后 的 函数 里 调用 这 个 函数 ， 就 可 以 了 解 训练 集 和 
测试 集 里 的 类 别 分 布 。 

print class label split 函数 是 自 解释 的 ， 我 们 把 训练 集 和 测试 集 作 为 参数 传 
给 它 。 由 于 之 前 把 x 和 y 进行 了 合并 ， 最 后 一 列 是 类 别 标签 ， 所 以 我 们 可 以 抽取 出 训练 集 
y train 和 测试 集 y_test， 然 后 将 它 俩 传递 给 get class distribution 函数 ， 这 
样 就 能 得 到 一 个 包含 着 类 别 标签 及 其 分 布 的 字典 ， 最 后 把 结果 打印 出 来 。 


最 后 调用 print class label spLit， 输 出 结果 如 图 6-2 所 示 。 
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仔细 看 看 这 个 结果 ， 你 会 发 现 训练 集 的 类 别 标签 分 布 和 测试 集 的 并 不 一 致 ， 测 试 纪 
刚好 有 40% 的 实例 属于 类 别 标签 1， 这 说 明 我 们 之 前 的 数据 分 割 方式 不 太 合适 ， 因 为 训练 

















集 和 测试 集 里 的 类 别 分 布 本 该 是 一 致 的 。 





人 


最 后 一 段 代码 里 我 们 调用 了 scikit-learn 里 的 stratifiedShuffleSplit P 
数 ， 用 它 使 得 训练 集 和 测试 集 里 分 类 分 布 一 致 ， 请 仔细 看 看 它 的 参数 。 








stratified split = StratifiedShuffleSplit(input dataset[:,-1],test ^ 


Size-test size,n iter-1) 

















第 1 个 参数 是 输入 的 数据 集 ， 所 有 的 行 和 最 后 一 列 都 被 传递 进去 。test_size 变量 


定义 了 测试 集 的 大 小 ， 我 们 之 前 已 经 声明 过 。 采 用 n iter 变量 ， 我 们 可 以 定义 只 进行 一 





次 分 割 。 接 着 ， 我 们 调用 print class label split XH ENA H 











输出 如 图 6-3 所 示 。 


Train data set class label distribution 


Class label -0, percentage records -9.36 
Class label -1, percentage records -0.32 
Class label =2, percentage records -0.33 


Test data set class label distribution 
Class label 20, percentage records 20.23 


Class label -1, percentage records =0.40 
Class label =2, percentage records -0.37 


Train data set class label distribution 


Class label =8, percentage records -0.33 
Class label -1, percentage records -0.33 
Class label -2, percentage records -0.33 


Test data set class label distribution 


Class label 20, percentage records 20.33 
Class label -1, percentage records 20.33 
Class label =2, percentage records 20.33 


类别 标签 分 布 情况 ， 








图 6-2 
现在 训练 集 和 测试 集 的 类 别 分 布 是 一 致 的 。 
6.2.4 更 多 内 容 











D 








6-3 





在 把 数据 用 于 机 器 学 习 的 算法 之 前 ， 必 须 认真 地 准备 数据 ， 提 供 类 别 分 布 一 致 的 训练 








集 和 测试 集 对 于 成 功 的 分 类 模型 是 十 分 重要 的 。 





在 实际 场景 中 ， 除 了 训练 集 和 测试 集 ， 我 们 还 会 另外 创建 一 个 dev 集 。 第 1 次 和 迭代 很 
可 能 无 法 构建 正确 的 模型 ， 此 时 我 们 不 能 把 测试 集 应 用 到 模型 上 ， 以 避免 误导 二 次 建 模 的 
过 程 。 我 们 为 此 创建 了 dev 集 ， 将 它 应 用 到 建 模 的 迭代 过 程 中 。 


本 节 采 用 的 80/20 经 验 法 则 是 一 种 理想 场景 ， 其 实在 许多 实际 应 用 中 ， 数 据 量 不 足以 











分 配 那么 多 实例 给 测试 集 。 此 类 情况 下 ， 一 些 实用 的 技术 如 交叉 验证 等 就 能 发 挥 作 用 ， 
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一 章 里 我 们 将 会 介 








6.3 查找 最 近 





4. Wr 

















混淆 矩阵 就 











邻 





绍 几 种 交叉 验证 技术 。 
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过 一 个 叫 作 混 清和 矩阵 的 术语 。 
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开始 之 前 ， 我 们 先 花 点 时 间 来 了 解 如 何 检查 分 类 模型 是 否 令 人 满意 。 在 本 章 的 简介 部 











类 问题 , 即 变量 y 只 能 取 了 或 者 F 两 个 值 , 再 假定 我 们 训练 了 一 IPSE SSRERON y 进行 预测 。 
































在 测试 集中 ， 我 们 已 知 y 的 真实 值 ， 同 时 有 模型 产生 的 y 的 预测 值 ， 这 样 就 能 填写 混淆 和 矩 







































































阵 中 的 值 了 ， 如 表 6-1 所 示 。 
表 6-1 
预测 值 
T F 
T TP EN 
真实 全 
F FP TN 
这 个 表 列 出 了 测试 集 里 的 结果 情况 。 注 意 , 我 们 已 经 知道 了 测试 集 里 的 分 类 标签 情况 ， 





Is 





e TP: True Positive CE 








此 ， 我 们 可 以 将 分 类 模型 的 输 











i 出 结果 和 真实 情况 做 个 比较 。 
正 类 ) 的 缩写 。 测 试 集 里 真实 标签 为 










































































e FN: False Negative CRKO 的 缩写 。 测试 集 里 真实 标签 为 
e FP: False Positive〈 误 报 ) 的 缩写 。 测 试 集 里 真实 标签 为 FE， 预 测 值 却 为 工 的 总 数 。 


。 TN: True Negative〈 真 负 类 ) 的 缩写 。 


总 数 。 


知道 了 混 消 矩 
度 和 错误 率 ， 在 后 





U 








FT 








阵 ， 我 们 就 可 以 对 















































测试 集 里 真实 标签 为 F， 预 测 值 也 为 F 的 


T. fügt T FLEX. 
T. 预测 值 却 为 F 的 总 数 。 


































































































准确 度 是 了 





F 确 








的 预测 数 。 








分 类 模型 的 质量 采用 指标 进行 评估 ， 这 里 先 介绍 准确 
里 会 介绍 更 多 的 指标 。 
































的 预测 和 总 数 的 比值 ， 从 混淆 矩阵 中 ,我 们 知 j 





Correct Predictions 





Accuracy — — 
Total Predictions 


道 TP 与 TN 之 和 就 是 正确 
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训练 集 的 准确 度 总 是 比较 乐观 ， 但 我 们 应 该 看 测试 集 的 准确 度 指标 来 判断 这 个 模型 的 





真正 效果 。 




















详细 讲解 之 前 ， 








据 都 加 载 到 内 存 里 记 住 ， 
的 训练 实例 ， 将 每 个 属性 都 进行 匹配 ， 找 到 匹配 结果 时 ， 就 将 相应 的 分 类 标签 赋予 这 个 








测试 实例 。 





X 些 知识 ,我 们 可 以 言 归 正 传 , 开始 介绍 K 近邻 分 类 算法 , 它 的 简写 为 KNN。 





可 以 看 得 HH 
效 了 。 
























































先 看 一 个 简单 的 分 类 算法 一 一 机 械 分 类 算法 ， 这 种 算 








去 把 所 有 的 训练 数 
当 需 要 对 一 个 未 知 的 训练 实例 进行 分 类 时 ， 在 内 存 里 比 对 所 有 


一 < 































































































来， 如 果 测 试 实例 和 内 存 里 的 任意 训练 实例 都 不 相似 的 话 ， 分 类 器 就 失 





























KNN 和 机 械 分 类 算法 很 相似 ， 除 了 不 查找 完全 匹配 项 ， 而 是 采用 相似 度量 这 一 点 。 和 

















机 械 分 类 算法 














FÉ, KNN 也 把 所 有 的 训练 集 数据 都 加 载 到 内 存 中 ， 当 它 需 要 对 测试 实例 进 






































行 分 类 时 ， 它 衡量 这 个 实例 和 所 有 训练 实例 之 间 的 距离 ， 基 于 距离 ， 它 选择 训练 集 里 的 K 


个 最 近 的 实例 。 


例如 ， 假 定 





























测试 集 的 分 类 预测 值 就 基于 这 K 个 最 近邻 的 主体 分 类 情况 。 


我 们 面 对 的 是 二 元 分 类 问题 ， 我 们 选择 K 值 为 3， 如果 给 定 的 测试 记录 的 




















3 个 最 近邻 的 类 别 标签 号 分 别 是 “1”“1” 和 “0”， 则 测试 实例 的 分 类 号 就 是 “17 近 


邻 们 的 主体 分 类 。 























KNN 是 基于 








实例 学 习 算 法 一 族 ， 此 外 ， 对 测试 实例 的 分 类 决定 在 最 后 才 产 生 ， 所 以 它 





也 被 称 为 懒惰 的 学 习 者 。 
6.3.1 ”准备 工作 


本 节 我 们 使 用 scikit 的 make classification 方法 创建 一 些 数 据 一 一 4 个 列 / 属 











性 /特征 和 100 个 实例 的 矩阵 。 


from sklearn.datasets import make classification 


import numpy as np 


import matplotlib.pyplot as plt 


import itertools 


from sklearn.ensemble import BaggingClassifier 


from sklearn.neighbors import KNeighborsClassifier 


def get data(): 


mn 


Make a sample classification dataset 

Returns : Independent variable y, dependent variable x 
now ow 

x,y = make classification(n features-4) 


return x,y 


def plot data(x,y): 


mn 


Plot a scatter plot fo all variable combinations 
non ow 

subplot start = 321 

col numbers = range(0,4) 


col pairs = itertools.combinations (col numbers, 2) 


for col pair in col pairs: 
plt.subplot(subplot start) 
plt.scatter(x[:,col pair[0]],x[:,col pair[1]],c-y) 
title string = str(col pair[0]) + "-" + str(col pair[1]) 
plt.title(title string) 
x label = str(col pair[0]) 
y label = str(col pair[1]) 
plt.xlabel(x label) 
plt.xlabel(y label) 
subplot start-t-1 





plt.show() 


x,y = get data() 
plot data(x,y) 























get data 函数 内 部 1 
试 数据 。 
在 最 后 把 数据 应 用 给 算法 之 前 ， 对 数据 进行 可 视 化 ， 我 们 用 plot data 函数 给 所 有 
绘制 了 散 点 图 ， 如 图 6-4 所 示 。 
我 们 绘 出 了 所 有 的 变量 组 合 ， 上 面 两 个 图 是 第 0 列 和 第 1 du 接着 是 第 0 
第 2 列 的 组 合 。 数 据点 根据 类 别 标签 的 不 同 用 不 同 颜色 进行 了 标记 ， 这 能 帮助 我 们 对 这 
变量 组 合 在 分 类 任务 中 所 需 的 信息 有 一 个 大 致 的 了 解 。 


EH 


] Į make classification 函数 来 给 任意 分 类 任务 生成 测 
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6.3.2 


我 们 把 数据 集 分 割 和 模型 训练 分 为 两 个 不 同 的 方法 : get tarin test H 














s 








6-4 





操作 方法 

















来 获取 训 





练 集 和 测试 集 ，builq model 用 来 建 模 ， 最 后 用 test model 来 验证 模型 的 可 用 性 。 


from sklearn.cross validation import StratifiedShuffleSplit 


from sklearn.neighbors import KNeighborsClassifier 


from sklearn.metrics import classification report 


def get train test(x,y): 


mn nm 


Perpare a stratified train and test split 
non ow 

train size - 0.8 

test size = l1-train size 

input dataset = np.column stack([x,y]) 


stratified split = StratifiedShuffleSplit(input dataset[:,-WN 


1],test size-test size,n iter-1) 





for train indx,test indx in stratified split: 
train x = input dataset[train indx,:-1] 
train y = input dataset[train indx,-1] 
test x = input dataset[test indx,:-1] 


test y = input dataset[test indx,-1] 
return train x,train y,test x,test y 





def build model (x, y, k=2): 


UEURI 


Fit a nearest neighbour model 

non ow 

knn = KNeighborsClassifier(n neighbors-k) 
knn.fit(x,y) 


return knn 


def test model (x, y, knn model): 
y predicted = knn model.predict (x) 
print classification report(y,y predicted) 


n= i 


if name == main 
加 载 数据 


x,y = get data() 


"e. 








P 


绘制 数据 的 散 点 


plot data (x,y) 











将 数据 分 为 训练 集 和 测试 集 


train x,train y,test x,test y = get train test (x,y) 








建 模 


knn model = build model (train x,train y) 





测试 模型 
print "\nModel evaluation on training set" 
print v Mn" 


test model(train x,train y,knn model) 








print "XnModel evaluation on test set" 
prine " Mn" 


test model(test x,test y,knn model) 


633 ”工作 原理 


我 们 从 主 函 数 开始 ， 和 上 一 节 的 方式 一 样 ， 先 调用 get_data 函数 ， 再 用 plot_data 
























































228 第 6 章 机 器 学 习 1 


2A H 








Y 

bi 
| 
pe 

c— 


图 形 。 








之 前 提 到 过 ， 必 须 从 训练 集中 分 割 一 部 分 数据 作为 测试 集 来 评估 模型 ， 我 们 调用 


get train test 函数 来 完成 这 个 任务 。 它 纪 
80s 的 数据 用 来 训练 模型 。 媚 


80/20, 


column stack 方法 将 xx 和 y 组 合成 一 个 单独 的 矩阵 。 











E 得 确定 两 者 的 大 小 ， 我 们 选用 标准 


























E 进 行 分 











TZ aT, RAJH NumPy 


的 
的 


然后 调用 StratifiedShuffleSplit 让 训练 集 和 测试 的 类 别 标签 分 布 一 致 ， 上 一 
节 我 们 曾 介绍 过 这 个 函数 。 


准备 好 训练 集 和 测试 集 ， 现 在 可 以 开始 构建 分 类 器 了 。 建 模 的 时 候 要 月 





























到 训练 集 的 属 


性 x 和 类 别 标签 y， 这 个 函数 同时 也 需要 指定 X 值 ， 即 近邻 的 数量 作为 参数 ， 我 们 设置 默 


认 值 为 2。 
我 们 使 用 

个 分 类 器 对 象 ， 然 后 用 
现在 要 测试 一 下 月 





后 打印 了 


真实 的 类 别 标签 Cy) 是 已 知 的 ， 我 们 有 
8 一 部 分 模型 





























fit 方法 建 模 。 
































scikit-learn 里 的 KNN 实现 KNeighborsClassifier 函数 ， 先 创建 一 


日 训练 集 构建 的 模型 效果 如 何 ， 方 法 是 将 训练 集 数 据 Cx 和 y) 和 模 
型 传 给 test_model 函数 。 









































H x 参数 调用 预测 函数 来 获得 标签 预测 值 ， 
估 指 标 。 先 来 看 模型 的 准确 度 ， 我 们 用 混淆 矩阵 来 追查 ， 最 后 











用 


classification, report 展示 结果 输出 。 这 个 函数 是 scikit-learn HJ metrics 模 





块 提 供 





的 ， 能 输出 多 种 模型 评价 指标 。 
模型 的 指标 输出 结果 如 图 6-5 所 示 。 











Model evaluation on training set 


Model accuracy = 91.25% 


Confusion Matrix 


array([[40, 0], 
[ 7, 33]]) 
None 


Classification Report 


precision recall 

0.0 0.85 1.00 

1.0 1.00 0.82 

avg / total 0.93 0.91 





f1-score 


support 


40 
40 


8e 





准确 度 指标 为 91.25%， 














准确 度 的 定义 我 们 不 再 歼 述 ， 请 参考 本 章 简介 部 分 。 














现在 来 看 混淆 矩阵 ， 左 上 的 单元 是 真正 类 数量 ， 漏 报 数 为 0， 误 报 数 为 7 (第 2 行 的 第 








1 个 单元 )。 






































最 后 ， 分 类 报告 里 还 有 精度 、 召 回 率 和 FI 值 等 指标 ， 请 看 下 面 的 定义 。 


e 精度 (Precision): 
e PEX (Recall): 
e Fl 值 : 精度 和 召回 















































模型 的 准确 率 大 约 为 91%， 这 是 让 人 满意 的 结果 ， 但 真正 的 考验 在 模型 应 用 于 测试 旨 


后 面 将 有 一 个 独立 的 章节 














真正 类 数 和 真正 类 数 与 误 报 数 之 和 的 比值 。 

















真正 类 数 和 真正 类 数 与 漏 报 数 之 和 的 比值 。 


率 的 调和 平均 数 。 
专门 介绍 这 些 指标 ， 目 前 我 们 得 到 的 结论 是 精度 和 召回 率 都 





















































pj 


























的 时 候 。 我 们 来 看 一 下 测试 数据 的 结果 指标 ， 如 图 6-6 所 示 。 








Model 


Model 


Confusion Matrix 


array([[ 9, 1], 


None 


Classification Report 


evaluation on test set 


accuracy = 95.00% 


[ e, 10]]) 








precision recall fi-score support 

0.0 1.00 0.90 0.95 10 

1.0 0.91 1.00 0.95 10 

avg / total 9.95 0.95 0.95 20 
6-6 





模型 在 测试 集 数据 上 运行 后 的 准确 率 为 95%， 这 结果 相当 好 ， 说 明 模型 效果 良好 。 





6.3.4 更 多 内 容 





更 深入 地 观察 我 们 建 好 的 模型 ， 如 图 6-7 所 示 。 
我 们 调用 了 get params 函数 , 它 返回 所 有 传递 给 模型 的 参数 ， 下 面 对 每 个 参数 进行 











仔细 分 析 。 
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E 个 参 尖 M Dl AR A L Hj 
eH 1 | 参数 引 ^ 了 rini KAE Hd >>> pprint.pprint(knn_model.get_params()) 
结构 ， 因 为 训练 集 里 的 每 条 记录 都 要 和 其 他 记录 进行 |falsorithm': aute, 


leaf size': 30, 
比较 ， 这 样 粗暴 的 实现 方法 会 消耗 大 量 的 运算 资源 。 inicie 
因此 ， 我 们 选择 kd tree E ball tree 作为 数据 LEM 'unifora') 
结构 ,让 每 条 记录 都 以 这 样 粗暴 的 方法 循环 于 所 有 的 63 
记录 。 

leaf size 是 传递 给 kd tree W ball tree 方法 的 参数 。 

metric 是 用 来 查找 邻居 的 距离 度量 , p 的 值 是 2, 它 将 明 可 夫 斯 基 距 离 降 为 欧 几 里 德 
距离 。 

最 后 是 weight 参数 KNN 根据 K 个 最 近邻 的 情况 来 决定 测试 实例 的 类 别 标签 , 多 数 

投票 情况 决定 了 测试 实例 的 取 值 。 不 过 ， 如 果 给 距离 设置 权重 ,每 个 邻居 的 权重 反比 于 它 
们 的 距离 。 这 样 ， 确 定 测试 实例 的 类 别 标 签 采 用 的 是 加 权 投 票 ， 而 不 仅 是 简单 投票 。 


6.3.5 ”参考 资料 
第 6 章 “ 机 器 学 习 1” 中 6.2 节 “ 为 建 模 准 备 数据 ”的 相关 内 容 。 
第 5 章 “ 数 据 挖掘 一 -大海 捞 针 ” 中 5.2 节 “ 使 用 距离 度量 ”的 相关 内 容 。 


6.4 用 朴素 贝 叶 斯 分 类 文档 































































































































































































本 节 介 绍 文本 分 类 问题 ， 我 们 将 使 用 朴素 贝 叶 斯 分 类 器 ， 这 种 算法 的 驱动 力 来 自 贝 叶 
斯 规则 ， 公 式 如 下 。 





PY | X)x P(X) 
P(Y) 


这 个 公式 展示 了 我 们 已 知事 件 了 发 生 的 情况 时 ， 事 件 X RIERIRIBETERH S XS KIN 

绍 的 文本 分 类 目标 是 二 元 分 类 : 给 定 一 个 电影 评价 ， 把 它 归 于 正面 或 负面 。 
在 贝 叶 斯 术语 里 ， 必 须 先 定义 条 件 概率 ， 给 定 评价 条 件 下 评价 为 正面 的 概率 和 给 定 评 
价 条 件 下 评价 为 负面 的 概率 ， 写 成 等 式 如 下 。 
Pl(class=positive|review) 和 P(class-negative|review) 


对 于 任意 一 条 评价 ， 如 果 有 了 上 面 的 这 两 个 概率 值 ， 我 们 即 可 通过 比较 它们 来 将 这 条 


P(X|Y)= 
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评价 归 类 到 正面 或 负面 ， 如 果 负 面 的 条 件 概率 大 于 正面 的 条 件 概率 ， 则 评价 是 负面 分 类 ， 
反之 亦 然 。 


现在 来 看 看 使 用 贝 叶 斯 规则 的 概率 公式 。 








































































































P(review | positive) x P( positive) 





P( positive | review) = 
(p | P(review) 


P(revi ti P ti 
Pecani renane (review | negative) x P(negative) 





P(review) 
要 比较 这 两 个 等 式 来 决定 最 终结 果 , 我 们 可 以 忽略 分 母 ， 因 为 它 只 是 简单 的 缩放 因子 。 
等 式 的 左边 称 为 后 验 概 率 ， 我 们 来 看 看 等 式 右边 的 分 子 部 分 。 
P(review | positive) x P( positive) 


PQpositive) 是 正面 评价 的 先 验 概率 , 它 是 我 们 从 训练 集中 获得 的 正面 分 类 标签 的 分 布 信 
仰 ， 我 们 通过 下 面 的 公式 从 训练 集中 把 它 计 算出 来 。 


No of reviews with positive class label 

































































rint 











P( positive) = - - 
Total reviews in the corpus 























P(reviewlpositive) 是 一 种 可 能 性 ， 它 回答 了 这 个 问题 ， 给 定 这 个 类 别 是 正面 的 ， 得 到 这 
个 评价 的 可 能 性 有 多 大 ? 我 们 仍然 得 从 训练 集中 进行 计算 。 

在 深入 了 解 概率 公式 之 前 ， 先 介绍 下 独立 假定 的 概念 ， 这 个 算法 之 所 以 冠 以 “ 贝 叶 斯 ” 
的 前 级 ， 就 是 因为 这 个 假定 。 和 现实 情况 相反 ， 我 们 假定 文档 里 出 现 的 词 是 相互 独立 的 ， 
并 基于 此 假定 来 计算 概率 。 

评价 文本 是 一 些 词 的 列表 ， 用 数学 的 方式 表达 如 下 。 




























































































review = (word, , word »,"**,word,} 


基于 独立 假定 ， 我 们 可 以 推断 出 这 些 词 在 一 条 评价 中 同时 出 现 的 概率 就 是 这 些 作为 名 
子 成 分 的 词 的 独立 概率 的 乘积 。 


这 个 概率 计算 公式 如 下 所 示 。 















































P(review = (word,, word,,……, word, } | positive) = [ [Pwora, | positive) 


i=1 


这 样 ， 给 定 一 个 新 的 评价 ， 我 们 就 能 用 这 两 个 等 式 中 的 先 验 概率 来 计算 出 它 是 属于 正 
面 还 是 负面 。 
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希望 你 没有 被 弄 糊 涂 ， 现 在 还 剩 下 一 个 问题 : 我 们 怎么 计算 独立 的 词 的 概率 呢 ? 


P(word, | positive) = 





1 





No of times word, occurs in reviews classified as positive 





Total number of words in all the reviews classified as positive 


这 个 式 子 指导 如 何 训练 模型 。 


我 们 从 训练 集 F 
出 条 件 概率 ， 并 保存 到 一 个 表 中 。 














获取 每 














条 评价 ， 了 解 它 的 标签 ， 然 后 对 这 个 评价 里 的 每 个 词 ， 计 算 
这 样 ， 我 们 就 能 用 这 些 计算 值 来 预测 后 面 的 测试 实例 了 。 






























































理论 的 东西 说 得 太 多 了 ， 


6.4.1 ”准备 工作 


本 节 将 使 朋 


中 有 一 个 电影 记 























H NLTK 库 来 处 弄 



































表 ， 评 价 已 经 被 预先 分 好 词 了 。 





下 面 我 们 要 深入 实践 。 








数据 和 算法 。 在 安装 NLTK 时 ， 系 统 也 会 下 载 数据 集 ， 其 
价 数据 集 。 电 影评 价 被 分 为 了 正面 和 负面 两 类 ， 每 个 分 类 都 有 一 个 词 的 列 


























from nltk.corpus import movie reviews 


如 上 所 示 ， 我 们 加 载 了 NLTK 的 语 料 模块 中 的 影评 数据 集 。 




















然后 调 











定义 的 Naivel 








J NLTKF 


25 train () 函数 。 


6.4.2 ”操作 方法 

















BayesClassifier 类 来 建 模 , 方法 是 将 训练 集 传递 














首先 加 载 必需 的 函数 ， 我 们 月 





T 





把 数据 集 分 割 为 训练 集 和 测试 集 。 


from nl 








昌 到 了 两 个 功能 函数 ， 第 1 个 是 检索 影评 数据 ， 第 2 个 是 





tk.corpus import movie reviews 


from sklearn.cross validation import StratifiedShuffleSplit 


import nltk 


from nl 
from nl 


from nl 





def get data(): 


Wm 


Get movi 


review data 





Wm 


dataset - 


1 


tk.corpus import stopwords 
tk.collocations import BigramCollocationFinder 
tk.metrics import BigramAssocMeasures 
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y labels = [] 
# 抽取 分 类 
for cat in movie reviews.categories(): 
# 对 于 每 个 类 别 下 的 文件 
for fileid in movie reviews.fileids (cat): 
# 获取 属于 这 个 分 类 的 词语 
words = list(movie reviews.words(fileid)) 
dataset.append((words,cat)) 
y labels.append(cat) 
return dataset,y labels 











def get train test(input dataset,ylabels): 


LEUR 


Perpare a stratified train and test split 
"wn 


train size = 0.7 
test size = l-train size 


stratified split = StratifiedShuffleSplit(ylabels,test size-test^ 
size,n iter-1,random state-77) 





for train indx,test indx in stratified split: 





train = [input dataset[i] for i in train indx] 
train y = [ylabels[i] for i in train indx] 
test = [input dataset[i] for i in test indx] 
test y = [ylabels[i] for i in test indx] 





return train,test,train y,test y 














现在 介绍 3 个 函数 ， 主 要 是 特征 生成 函数 : 为 了 分 类 ， 我 们 需要 提供 特征 或 者 属性 。 
给 定 一 个 评价 ， 这 些 函 数 能 从 中 生成 一 系列 特征 。 























def build word features(instance): 
"nn 
Build feature dictionary 
Features are binary, name of the featur 
and value is 1. Features ar 
called feature set 


"a 


# 用 字典 来 保存 特征 





is word iteslf 
stored in a dictionary 











feature set = {} 

# 词 列 表 的 实例 元 组 里 的 第 1 个子 项 
words = instance[0] 

# 把 特征 保存 到 字典 中 
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for word in words: 
feature set[word] = 1 
# 实例 元 组 里 的 第 2 个 子 项 是 类 别 标签 


return (feature set,instance[1]) 





def build negate features (instance): 


def 


"a 





If a word is preceeded by either 'not' or 'no' 
this function adds a prefix 'Not ' to that word 
It will also not insert the previous negation word 


'not' or 'no' in feature dictionary 


对 词 进 行 检索 ， 即 实例 元 组 中 的 第 1 个 子 项 
words = instance[0] 
final words ] 


用 一 个 布尔 变量 追踪 上 一 个 词 是 不 是 负面 词 














negate = False 
生成 负面 词 的 列表 
negate words = ['no','not'] 


对 词 进行 循环 的 时 候 ， 遇 到 一 个 负面 词 ， 负 面 标识 变量 值 变 为 True 
否定 词 不 会 加 入 到 特征 字典 中 
当 负 面 标识 变量 值 为 True 时 ， 词 的 前 面 加 上 一 个 “Not " Hj 


for word in words: 

















if negate: 
word = 'Not ' + word 
negate - False 

if word not in negate words: 
final words.append (word) 


else: 
negate - True 
# 特征 字典 
feature set = {} 


for word in final words: 
feature set[word] = 1 
return (feature set,instance[1]) 


remove stop words (in data): 

non ow 

Utility function to remove stop words 
from the given list of words 

non ow 

stopword list = stopwords.words('english') 
negate words = ['no','not'] 
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# 我 们 不 希望 删除 负面 词 

# 我 们 创建 一 个 新 的 停 用 词 列表 来 排除 负面 词 

new stopwords = [word for word in stopword list if word not innegate words] 
label = in data[1] 

# 删除 停 用 词 


words = [word for word in in data[0] if word not in new stopwords] 








return (words,label) 


def build keyphrase features (instance): 


Ww 





A function to extract key phrases 

from the given text. 

Key Phrases are words of importance according to a measure 

In this key our phrase of is our length 2, i.e two words or 
bigrams 

"nn 

feature set = {} 

instance = remove stop words (instance) 


words = instance[0] 


bigram finder = BigramCollocationFinder.from words (words) 
# 我 们 采用 二 元 特征 的 原始 频率 计数 
# 例如 ， 二 元 特征 按 出 现 的 频率 降序 排序 ， 选择 前 400 个 
bigrams = bigram finder.nbest (BigramAssocMeasures.raw freq,400) 
for bigram in bigrams: 
feature set[bigram] = 1 
return (feature set,instance[1]) 


y 








现在 编写 建 模 的 函数 ， 然 后 测试 模型 是 否 有 效 。 











v9 


def build model(features): 
nono" 
Build a naive bayes model 
with the gvien feature set. 


mn 





model = nltk.NaiveBayesClassifier.train(features) 
return model 





def probe model(model,features,dataset type = 'Train'): 


LEUR 


A utility function to check the goodness 





of our model. 


LIE 
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Y 


这 


accuracy = nltk.classify.accuracy (model,features) 
print "An" + dataset type + " Accuracy = $0.2f"$(accuracy*100) +"%" 


def show features (model,no features-5): 


[RIA 





A utility function to see how important 


various features are for our model. 


UEURI 


print "\nFeature Importance" 





print " Mn" 





print model.show most informative features (no features) 








第 1 次 就 得 到 正确 的 模型 是 非常 困难 的 ， 我 们 需要 反复 党 试 不 同 的 特征 和 参数 调 优 ， 
是 个 充满 磨 练 和 错误 的 过 程 。 下 面 的 代码 就 是 为 改善 模型 而 进行 的 多 次 尝试 。 

















def build model cycle 1(train data,dev data): 


LEUR 


First pass at trying out our model 


mn 





为 训练 集 建立 特征 

train features =map (build word features,train data) 
为 测试 集 建立 特征 

dev features = map(build word features,dev data) 
建 模 

model = build model(train features) 

模型 探测 








probe model (model,train features) 
probe model (model,dev features,'Dev') 





return model 


def build model cycle 2(train data,dev data): 


mn 


Second pass at trying out our model 


[EIE 


为 训练 集 建立 特征 
train features =map (build negate features,train data) 
为 测试 集 建立 特 人 
dev features = map(build negate features,dev data) 


RE 


model = build model(train features) 
模型 探测 


probe model (model,train features) 





FH 
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probe model (model,dev features,'Dev') 





return model 


def build model cycle 3(train data,dev data): 


mn 


Third pass at trying out our model 


mn 


为 训练 集 建立 特征 

train features =map (build keyphrase features,train data) 
为 测试 集 建立 特征 

dev features = map(build keyphrase features,dev data) 


建 模 


model = build model (train features) 
模型 探测 


probe model (model,train features) 











probe model (model,dev features,'Dev') 





test features - map(build keyphrase features,test data) 
probe model (model,test features,' 'Test') 














return model 





最 后 ， 写 一 段 代码 调用 上 面 定 义 的 各 个 函数 。 





if name == " main ": 
加 载 数据 
input dataset, y labels = get data() 
训练 数据 


train data,all test data,train y,all test y = get train ^ 
test(input dataset,y labels) 

Dev 数据 

dev data,test data,dev y,test y = get train test(all test \ 
data,all test y) 

查看 不 同 数据 集 的 大 小 


print "\nOriginal Data Size =", len(input dataset) 











print "\nTraining Data Size =", len(train data) 
print "\nDev Data Size =", len(dev data) 
print "\nTesting Data Size =", len(test data) 


# 建 模 的 不 同 过 程 
model cycle 1 = build model cycle 1(train data,dev data) 


# 打印 输出 模型 的 信息 
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show features (model cycle 1) 
model cycle 2 = build model cycle 2(train data,dev data) 
show features (model cycle 2) 
model cycle 3 = build model cycle 3(train data,dev data) 





show features (model cycle 3) 





643 ”工作 原理 


我 们 从 主 函 数 开 始 讲解 ， 首 先 调用 了 get data 函数 ， 如 前 所 述 ， 影 评 数据 保存 成 正 
面 和 负面 两 类 。 第 1 层 循环 遍历 这 两 类 ， 在 第 2 层 循环 中 检索 出 分 类 的 文件 ID， 再 用 文件 
ID 检索 出 词 ， 代 码 如 下 。 
























































words = list(movie reviews.words(fileid)) 





把 这 些 词 添加 到 列表 dataset 里 ， 类 别 标签 则 添加 到 另 一 个 列表 y labels 中 。 


最 后 返回 的 是 这 些 词 和 对 应 的 类 别 标签 。 














return dataset,y labels 








准备 好 了 数据 集 ， 接 着 就 要 把 它 分 割 成 测试 集 和 训练 集 。 
& 训练 数据 


train data,all test data,train y,all test y = get train \ 























test(input dataset,y labels) 








用 输入 的 数据 集 和 类 别 标签 作为 参数 调用 get train test 函数 ， 它 返回 分 层 的 样 
本 。 我 们 选择 数据 的 70% 作 为 训练 集 ， 剩 下 的 作为 测试 集 


和 上 面 一 样 ， 我 们 把 上 一 步 得 到 的 测试 集 数据 传递 给 get train test 函数 。 
# Dev 数据 


dev data,test data,dev y,test y = get train test(all test \ 
data,all test y) 











o 

















这 样 创建 了 一 个 独立 的 dev 数据 集 ， 用 它 可 以 对 模型 进行 igi Data Size 
调 优 。 我 们 希望 测试 集 数 据 能 起 到 真正 的 测试 作用 ， 因 而 在 建 ining Data Size 
模 的 往复 过 程 中 ， 它们 不 能 参与 计算 。 Data Size 

打印 输出 训练 集 、dev 集 和 测试 集 的 大 小 结果 如 图 6-8 € 
所 示 。 图 6-8 











由 


























人 
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数据 的 70% 划 归 训 练 集 ， 剩 下 的 30% 再 按 70/30 的 比例 分 为 dev 集合 测试 集 。 


















































现在 开始 建 模 过 程 ， 先 用 训练 集 和 dev 集 数 据 调 用 build mo 











在 该 函数 中 ， 先 用 所 有 数 搜 
build word feature 函数 是 一 个 简单 的 特征 生成 函数 : 每 个 词 


















































为 训练 集 建 立 特征 





为 测试 集 建 立 特征 


dev features - map 





























建 模 


输出 是 特征 字典 ， 键 是 词 本 身 ， 值 是 1， 这 种 特征 
训练 集 和 dev S&H] build word feature mi. 








train features =map (build word features,train data) 


(build negate features,dev data) 


接着 就 用 生成 的 特征 来 训练 模型 。 


model = build model(train features) 


我 们 用 probe mode 





模型 ， 第 2 个 是 用 来 验证 模型 效果 的 特征 ， 最 后 一 个 是 
中 引用 accuracy 函数 来 计算 准确 度 指标 。 








从 nltk.classify 模块 





1 函数 来 检测 模型 的 效果 ， 它 需 
E 
















































































EIA build word feature 函数 来 创建 特征 。 


del cycle 1 MŽ. 











都 是 一 个 特征 ， 函 数 的 


E 常 被 称 为 词 袋 (Bag of Words, BOW). 





需要 3 个 参数 ， 第 1 个 是 要 检测 的 
字符 串 ， 用 来 显示 目标 。 这 个 函数 




















我 们 调用 了 probe model 函数 两 次 : 第 1 次 是 用 训练 集 数据 来 检测 模型 的 效果 ， 第 











2 次 则 是 用 dev 数据 集 。 


# 模型 检测 
probe model (model, 


train features) 
dev features, 'Dev') 





probe model (model, 


























准确 度 的 计算 结果 如 下 。 


Train Accuracy = 98.07% 


Dev Accuracy - 69 


.76% 





























采用 训练 集 时 模型 的 表现 很 好 ， 这 并 不 奇怪 ， 因 为 在 训练 阶段 使 用 的 都 是 训练 集 的 数 
好 。 然 而 ，dev 集 的 准确 度 十 分 可 怜 ， 模 型 只 能 把 dev 集 60% 多 











据 ， 所 以 分 类 的 结果 相当 
的 实例 正确 分 类 。 显 然 ， 
对 未 知 实例 进行 分 类 。 因 
的 作用 。 

















iz 















































我 们 选择 的 特征 的 信息 量 还 不 够 ， 无 法 帮助 模型 以 较 高 的 准确 度 




































































E 面 还 是 负面 起 到 更 重要 





此 ， 我 们 要 了 解 哪些 特征 对 区 分 评价 是 ] 
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show features (model cycle 1) 


show features 函数 可 以 查看 各 个 特征 对 模型 的 贡献 ， 它 使 月 
HJ show most informative feature 函数 。 特 征 对 模型 的 重要 改 





Feature Importance 


Most Informative Features 











stupidity = 1 neg : pos = 15.0 : 1.0 
unconvincing - 1 neg : pos = 12.3 : 1.0 
wonderfully = 1 pos : neg = 11.4 : 1.0 
outstanding = 1 pos : neg = 11.0 : 1.0 

warned = 1 neg : pos - 10.3 : 1.0 


HT NLTK 分 类 器 对 象 
表现 如 图 6-9 所 示 。 











图 6-9 


上 面 的 结果 要 这 样 解 读 : 特征 stupidity =1 对 于 将 评价 划 归 负面 的 效果 是 15 fii. 
现在 用 一 系列 新 的 特征 进行 第 2 轮 建 模 ， 方 法 是 调用 build model cycle 2. 它 






































fll build model cycle 1 基本 相同 ， 除 了 内 部 map 函数 所 调 ) 
































的 特征 生成 函数 不 同 。 


这 个 特征 生成 函数 是 builgd_negate_features。 通 常 一 些 词 如 “not” 和 “no” 等 











称 为 否定 词 ， 在 前 面 使 用 的 特征 生成 函数 中 ， 假 定 评价 者 说 电影 不 好 (“not good”), WA 
“good” 在 正面 和 负面 评价 中 起 的 作用 是 一 样 的 , 实际 上 “good” 应 该 是 用 来 表 
为 了 避免 这 个 问题 ， 我 们 在 词 列表 中 查找 出 否定 词 “not” 和 “no” 然后 按 下 面 的 方式 对 





























句子 进行 修改 。 


"movie is not good" to "movie is not good" 









































这 样 “not_good” 就 是 一 个 用 来 表明 负面 评价 的 良好 特征 ， 而 不 是 正面 评价 ， 这 就 是 





build negate features 函数 的 作用 。 


现在 看 看 用 负面 特征 进行 建 模 的 效果 检测 结 





























Train Accuracy = 98.36$ 
Dev Accuracy = 70.24% 














明正 面 评价 。 

















模型 在 dve 数据 上 的 准确 度 提 高 了 大 约 2%， 对 模型 更 重要 的 特征 排序 如 图 6-10 





所 示 。 


请 看 最 后 几 个 特征 ， 把 “funny” 加 上 否定 词 
的 效果 是 11.7 倍 。 





























“Not funny " XJ Tfl 


F 价 划 归 负面 


模型 的 准确 度 还 能 提高 吗 ? 目前 是 70%。 现 在 用 新 的 特征 运行 第 3 次 ， 方 法 是 调用 
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Feature Importance 


Most Informative Features 
stupidity - 1 


wonderfully - 1 
unconvincing = 1 

Not funny = 1 
outstanding = 1 











图 6-10 


















































build model cycle 3, 'ZHlbuild model cycle 2 基本 相同 , 除了 内 部 map 函数 








所 调用 的 特征 生成 函数 不 同 。 

这 个 特征 生成 函数 是 puild_keyphrase_features， 我 们 对 它 进行 深入 研究 。 它 
不 再 用 词 作为 特征 ， 而 是 从 评价 中 生成 关键 词组 作为 特征 。 关 键 词 组 是 我 们 按 某 种 指标 评 
定 为 重要 的 词组 ， 它 可 以 由 两 个 、3 个 或 n 个 词组 成 ， 本 示例 是 由 两 个 词 ( 二 元 特征 ) 组 
成 。 评 定 指标 为 原始 的 频率 计数 ， 我 们 选择 出 现 频率 较 高 的 词组 。 在 生成 关键 词组 之 前 ， 
我 们 还 需要 做 一 些 简单 的 预 处 理 : 用 remove stop words 函数 从 词 列 表 中 删除 停 用 词 
和 标点 。NLTK 的 语 料 模块 中 有 一 个 英语 的 停 用 词 列表 ， 可 以 采用 以 下 方式 来 检索 。 





































































































stopword list = stopwords.words('english') 




















类 似 地 ，Python 的 string 模块 维持 一 个 标点 列表 ， 我 们 用 下 面 的 代码 将 停 用 词 和 标 


点 删除 。 


words = 














[word for word in in data[0] if word not in new stopwords \ 


and word not in punctuation] 


不 过 ， 


“not” 和 “no” 不 能 删除 ， 我 们 创建 一 个 新 的 停 用 词 表 ， 排 除了 否定 词 。 





new stopwords = [word for word in stopword list if word not in negate \ 


words] 








我 们 使 ) 








]NLTK 的 BigramCollocationFingder 类 来 生成 关键 词组 ， 方 法 如 下 。 





bigram 


finder = BigramCollocationFinder.from words (words) 


+ 我 们 采用 二 元 特征 的 原始 频率 计数 


# 例如 ， 


二 元 特征 按 出 现 的 频率 降序 排序 ， 选择 前 400 个 


bigrams = bigram finder.nbest (BigramAssocMeasures.raw freq,400) 








评定 指标 是 频率 计数 一 一 上 面 代码 最 后 一 行 里 指定 的 raw_freq， 我 们 要 求 特征 查找 
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器 最 多 返回 400 个 词组 。 
使 用 这 些 新 的 特征 ， 我 们 继续 建 模 和 测试 准确 度 ， 其 结果 如 下 。 











Train Accuracy = 100.00% 
Dev Accuracy = 80.00% 








模型 在 dev 数据 集 上 的 运行 效果 大 大 提高 ， 从 第 1 次 的 68% 提 升 了 12 个 百分点 到 了 
80%。 现 在 把 测试 集 数 据 也 应 用 到 模型 上 来 看 看 准确 度 如 何 。 














test features = map(build keyphrase features,test data) 
probe model (model,test features,' 'Test') 








Test Accuracy - 84.44$ 





测试 集 的 准确 度 高 过 了 dev 数据 ， 对 于 未 知 数据 ， 模 型 的 表现 相当 出 
之 前 ， 我 们 来 看 看 最 有 信息 含量 的 关键 词组 有 哪些 ， 如 图 6-11 所 示 。 





[È 


。 在 结束 本 证 























Feature Importance 





Most Informative Features 





(u'waste', u'time') = 1 neg : pos - 12.2 5 3.8 
(u'oscar', u'nomination') = 1 pos : neg = 10.3 : 1.0 
(u'one', u'worst') = 1 neg : pos = 10.2 : 1.0 
(u'works', u'well') = 1 pos : neg = 9.7 : 1.0 
(u'low', u'key') = 1 pos : neg = 9.7 : 1.0 











图 6-11 























关键 词组 中 ,“ 奥 斯 卡 提 名 ”对 于 将 评价 划 归 正面 的 效果 是 10 倍 。 无 可 置疑 ， 关 键 词 
组 是 很 有 信息 含量 的 ， 因 此 这 次 的 模型 比 前 两 个 的 效果 要 好 得 多 。 


644 更 多 内 容 
对 于 二 元 特征 ， 我 们 怎么 知道 400 个 关键 词组 以 及 频率 计数 就 是 最 好 的 参数 呢 ? 不断 


尝试 和 出 错 ， 虽 然 没 有 列 出 所 有 这 些 过 程 ， 其 实 我 们 测试 运行 过 各 种 组 合 ， 如 带 有 点 互信 
息 的 200 个 词组 以 及 其 他 类 似 的 方法 等 。 


这 也 是 现实 情况 中 必须 做 的 ， 不 过 不 是 每 次 都 盲目 地 琢磨 参数 ， 而 是 要 关注 最 有 信息 
量 的 特征 ， 它 会 给 判断 特征 的 鉴别 能 力 提供 线索 。 


6.4.5 ”参考 资料 


第 6 章 “ 机 器 学 习 1” 中 6.2 节 “ 为 建 模 准 备 数据 ”的 相关 内 容 。 



















































































6.5 构建 决策 树 解 决 多 类 问题 


ATH 
系列 问题 ， 用 一 系列 日 
性 质 ， 决 策 树 是 容易 理解 和 解释 的 。 


请 访问 以 下 链接 ， 了 解 更 多 关 了 


https://en.wikipedia.org/wiki/Decision tree. 





提出 一 


于 这 利 

















理论 上 ， 对 于 给 定 的 数据 集 可 以 构建 许多 决策 树 ， 其 中 一 些 准 
有 一 些 高 效 的 算法 能 在 有 限时 间 内 和 9 


CART(Classification and Regression Trees, 分 类 





















































述 如 下 。 


给 定 一 个 数据 集 D， 它 有 nn 条 记录 ， 每 条 记录 


的 标签 为 yy、ys。、y 三 者 中 之 一 ， 算 法 的 过 程 如 下 。 


WR D 里 所 有 的 记录 都 属于 同一 个 类 别 ， 假 定 为 yy， 则 yi 是 树 的 叶子 节点 ， 标 签 


问题 


























类 的 ， 


HA 








树 的 。 


这 
本 
介 


中 要 介 














如 何 构 建 决策 树 解决 多 分 类 问题 直观 看 , 决策 树 可 以 当 作 这 样 一 个 过 程 : 











的 if-then 语句 分 层 组 















































棵 决策 树 ， 最 后 得 到 答案 。 由 











上 度 要 更 高 一 些 。 现 在 
































成 较为 合理 准确 的 树 ， 比 如 Hunt 算法 ，ID3、C4.5 和 


























归 树 ) 等 算法 都 基于 它 








而 来 ,这 种 算法 的 概 











































































































布 在 3 种 列表 标签 上 。 我 们 还 可 
图 片 中 包含 从 0 到 9 的 数字 ， 














WR D 里 的 记录 属于 多 个 类 别 ， 则 采用 
E. 假定 第 1 次 运行 ,我 们 在 所 有 的 属性 
能 把 数据 集 分 割 为 3 个 较 小 的 子 集 , 然后 将 i 
测试 条 件 来 找 出 下 一 级 节点 。 这 个 过 程 
请 注意 我 们 定义 分 类 的 时 候 定 义 了 yis yos ys 
丰 然 不 同 ， 这 是 多 分 类 问题 。 我 们 多 次 引 月 



























































j m 个 属性 /特征 / 列 ， 而 且 每 条 记录 








FE 测 试 条 件 将 记录 分 割 成 较 小 的 子 
E 上 执行 特征 测试 条 件 ， 从 中 找 出 一 个 属性 
UB EG 在 3 个 子 集 中 应 





m 














签 ， 这 和 之 前 解决 的 两 类 
是 一 个 三 分 类 问题 ， 记 录 分 


























以 把 它 扩展 成 n 类 问题 ， 数 字 i 




















一 些 算法 也 先天 具备 处 型 
文 种 能 力 ， 决 策 树 、 朴 素 贝 叶 斯 和 KNN 等 算 ; 















































节 将 介绍 如 何 应 用 决策 树 处 理 多 分 类 问题 ， 














是 一 个 例子 ， 给 定 的 
类 。 现 实 中 的 许多 问题 天 然 就 是 多 分 
多 分 类 问题 的 能 力 ， 不 需要 进行 改动 。 本 章 研究 的 算法 都 
多 分 类 问题 。 


也 让 我 们 更 深入 地 了 解决 策 树 。 下 一 章 






































下 面 开 始 介绍 决策 树 。 























绍 的 随机 森林 是 一 种 更 复杂 的 方法 ， 在 工业 











]， 它 也 是 基于 决策 
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6.5. ”准备 工作 














我 们 采 























C 473 


易于 解 
仅 


法 








Æ E 
Tf us 


uu ? 














来 解决 分 类 问题 和 回归 问题 。 


天 然 支持 多 分 类 问题 。 








] iris 数据 集 来 演示 如 何 构 建 决策 树 ， 它 是 








一 种 无 参数 的 监督 学 习 方法 ， 可 以 





前 面 说 过 ， 决 策 树 的 优点 入 


























































































































多 ， 列 举 如 下 。 


极 少 的 数据 准备 和 数据 -特征 转换 ， 还 记得 前 几 节 里 那些 繁复 的 特征 生成 方 


























决策 树 也 有 它 自 己 的 不 足 ， 下 面 列 出 了 几 条 。 

。 容易 过 拟 合 : 训练 集 的 准确 度 很 高 而 对 测试 集 的 效果 很 差 。 

。 对 于 一 个 给 定 的 数据 集 ， 能 产生 成 千 上 万 的 决策 树 。 

。 类 别 不 平衡 的 影响 十 分 严重 : 在 二 元 分 类 问题 中 , 每 类 的 实例 数量 不 同时 就 会 爆发 

类 别 不 平衡 ， 对 多 分 类 问题 也 是 一 样 

决策 树 的 一 个 重要 组 成 是 特征 测试 条 件 ， 我 们 将 重点 解释 它 。 一 般 来 说 ， 实 例 的 每 个 
属性 都 是 容易 理解 的 。 

二 元 属性 : 属性 只 能 取 两 个 值 ， 例 如 True 或 者 False。 在 这 种 情况 下 ， 特 征 测试 条 件 
返回 两 个 值 。 

标 称 属性 : 这 种 属性 可 以 取 两 个 以 上 【例如 个) 的 值 ， 此 时 特征 测试 条 件 要 么 返回 
n 个 输出 ， 要 么 采用 二 元 分 割 进行 分 组 。 





序数 属性 : 数值 ; 
。 这 样 ， 属 性 
gs 











大 三 者 
这 类 属性 的 处 理科 
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Ht 
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WX 











性 是 通过 对 实 























的 取 





是 基 





rim 
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Je VEAMOS 72) PUR BI A EE Je A 
我 们 通过 一 个 示例 来 





ARE SCR. 
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REF) 
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H. 














项 序 关系 ， 例 
UR 3 MA, H 
生 类 似 。 
值 是 连续 的 ， 它 们 得 先 离 散 化 然后 再 进行 处 理 。 
于 一 个 称 为 “不 纯 性 ”的 标准 或 指标 ， 
例 的 每 个 属性 上 的 类 别 标签 进行 相关 计 


i 
Et slt 








D. [BER TA 
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E 
Hy 





性 ， 取 值 范围 为 小 、 中 、 
HE: 小、 中、 大。 特征 测试 条 件 对 























E， 也 就 是 树 
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行 说 明 ， 这 上 


EA 
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入 的 记录 分 割 成 多 个 
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站 最 大 的 
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这 一 级 的 节点 。 
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E(X) 2 3, PG ) log, C) 


i-l 











P xj) 定义 如 下 。 





N 
1 


Count of x, 


P(x)- 
length( X) 


举 个 例子 ， 有 一 个 集合 X 如 下 。 





X-(22) 

















iE fx S6 B8 0 77 WU F o 
= 2 via B | ? elo B = 
2 82 2 2 82 2 
-(1xlog, (1)+1x log, (D) 2 0.0 


INRESA, WHERE. E Python FHIR, TEES PH 
代码 。 



































import math 


def prob(data,element): 





"""Calculates the percentage count of a given element 





Given a list and an element, returns th lements percentage count 


mn 


element count =0 
# 测试 条 件 以 检查 输入 是 否 正确 
if len(data) == 0 or element == None \ 
or not isinstance (element, (int,long,float)): 











return None 
element count = data.count (element) 
return element count / (1.0 * len(data)) 


def entropy (data): 
""""Calcuate entropy 


mn 


entropy -0.0 


if len(data) -- O0: 


return None 


246 第 6 章 机 器 学 习 1 


if len(data) == 1: 
return 0 
try: 
for element in data: 
p = prob(data,element) 
entropy-*t--1x*pxmath.log (p,2) 





except ValueError as e: 
print e.message 





return entropy 




















y rdkspdeoé c o AARRE, RINE Y 8. HR Ze AE T DR RAE 
AARET iR AX. 

















Entropy(t) =—5 pü |Ðlog, plil 


i=0 


再 定义 一 个 术语 信息 增益 : 它 是 一 个 指标 ， 用 来 衡量 给 定 的 实例 中 哪个 属性 对 于 鉴别 
分 类 是 最 有 用 的 ， AUT ARRAT RFRA. OPERARE IZ. RA 


m Eb 
已 征 
息 增益 来 构建 树 ， 请 参见 : https//en.wikipedia.org/wiki/Information gain in decision trees. 


- 
41753 BUJI S ELLE Fs E. ADLER BAD. zs laxe 6-2 所 示 。 

































































































































































表 6-2 
主演 奥斯卡 得 奖 票房 观看 
Y Y N Y 
Y N Y N 
N N Y Y 
N Y X Y 
上 表 是 一 个 虚构 的 数据 ， 它 采集 了 一 个 用 户 的 相关 信息 ， 用 来 发 现 他 喜欢 什么 类 型 的 
















































































UV. EE A 个 属性 ， 第 1 个 是 用 户 观看 电影 是 否 取 决 于 主演 ， 第 2 个 是 用 户 是 否 观 影 的 
决定 因素 是 奥斯卡 得 奖 情况 ;第 3 个 则 是 关于 票房 是 否 成 功 。 

为 了 给 这 个 实例 构建 决策 树 , 我 们 先 对 整个 数据 集 的 炉 进 行 计算 。 这 是 一 个 二 元 问题 ， 
此 c=2， 此 外 ， 记 录 总 数 为 4， 所 有 数据 集 的 炉 计 算 方法 如 下 。 






















































































Is 








为 Y， 男 一 条 为 N; 
们 就 得 到 这 个 属性 的 炉 值 。 


训练 集 和 测试 集 。 
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1 1 3 3 
E(D) = ( x log, B 十 Fi x log, Bl 





WEZ JG. AREAREN 0.811. 
现在 看 第 1 个 属性 , 主角 相关 的 属性 : 这 个 属性 为 Y 时 ， 有 一 个 实例 的 类 别 标签 为 Y， 























另 一 个 为 N; 这 个 属性 为 N 时 ， 两 个 实例 的 类 别 标签 都 为 N。 我 们 来 计算 平均 焙 值 ， 结 果 
如 图 6-12 所 示 。 


entropy lead actor Y = 2/4.0 * -(1/2.0 * log(1/2.9,2) + 1/2.0 * log(1/2.9 ,2)) 
entropy lead actor N = 2/4.0 * -(0 + 2/2.0 * 1og(2/2.0,2)) 


entroyp lead actor = entropy lead actor Y + entropy lead actor N 








ixJéck EH. EAEE Y 时 有 两 条 记录 ， 为 N 时 也 是 两 条 记录 ， 因 此 ， 我 们 得 
用 2/4.0 RERE. 








图 6-12 


























这 个 数据 子 集 的 炉 计 算出 来 了 。 我 们 知道 对 于 主角 属性 为 Y， 有 一 条 记录 的 类 别 标签 

















类 似 地 ， 对 于 主演 属性 为 N， 两 条 记录 的 类 别 标签 都 是 N。 这 样 ， 我 








主角 属性 的 平均 箭 值 为 0.5。 

















言 息 增益 是 0.811-0.5=0.311。 
同样 地 ， 我 们 可 以 计算 出 所 有 属性 的 信息 增益 ， 具 有 最 高 信息 增益 的 属性 成 功 地 成 为 
决策 树 的 根 节点 。 
同样 的 处 理 过 程 在 第 二 层 的 节点 上 重复 进行 ， 在 其 他 层 里 也 是 这 样 。 

















Tii 
































6.5.2 ”操作 方法 





先 加 载 必需 的 库 ， 然 后 定义 两 个 函数 ， 第 1 个 是 加 载 数 据 ， 第 2 个 是 将 数据 集 分 割 为 








from sklearn. 
from sklearn. 
import numpy 
from sklearn 
from sklearn. 





datasets import load iris 

cross validation import StratifiedShuffleSplit 
as np 

import tree 

metrics import accuracy score,classification V 


report,confusion matrix 


import pprint 
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def get data(): 


Wm 


Get Iris data 

"nn 

data = load iris() 

x — data['data'] 

y = data['target'] 

label names = data['target names'] 
return x,y,label names.tolist() 


def get train test(x,y): 


mn 


Perpare a stratified train and test split 

"nn 

train size = 0.8 

test size = l-train size 

input dataset = np.column stack([x,yl) 

stratified split = StratifiedShuffleSplit(input dataset[:,-1], \ 
test size-test size,n iter-1,random state - 77) 





for train indx,test indx in stratified split: 
train x = input dataset[train indx,:-1] 
train y = input dataset[train indx,-1] 
test x = input dataset[test indx,:-1] 
test y = input dataset[test indx,-1] 


return train x,train y,test x,test y 

















接着 编写 函数 用 来 构建 和 测试 决策 树 模型 。 




















def build model (x,y): 
LELEI 
Fit the model for the given attribute 
class label pairs 


Wm 


model tree.DecisionTreeClassifier (criterion-"entropy") 








model model.fit(x,y) 
return model 


def test model (x,y,model,label names): 


CELEI 


Inspect the model for accuracy 


CELEI 





y predicted = model.predict (x) 


65 ”构建 决策 树 解决 多 类 问题 249 


print "Model accuracy = $0.2f"$(accuracy score(y,y predicted) * \ 


100) + "$n" 


"5nConfusion Matrix" 


" " 








"\nClassification Report" 


print pprint.pprint (confusion_matrix(y,y_predicted)) 
t "W " 

















print classification report(y,y predicted,target names-label names) 




















if 


6.5.3 














最 后 ， 用 主 函 数 调用 之 前 定义 的 所 有 函数 。 











| 





" 


name == main_": 





加 载 数据 

x,y,label names = get data() 

将 数据 分 割 为 训练 集 和 测试 集 

train x,train y,test x,test y = get train test (x,y) 
建 模 


model = build model (train x,train y) 

在 训练 集 上 评估 模型 

test model(train x,train y,model,label names) 
在 测试 集 上 评估 模型 


test model(test x,test y,model,label names) 


工作 原理 



































从 主 函 数 开 始 ， 先 调用 get data 函数 加 载 iris 数据 到 x、y 和 label_names 变量 
中 。 我 们 设置 了 标签 名 ， 这 样 计算 模型 准确 度 时 可 以 衡量 每 个 独立 标签 的 情况 。 之 前 提 到 


过 , iris 


是 一 个 三 分 类 问题 ， 需 要 构建 一 个 分 类 器 把 新 实例 划分 到 山 意 尾 、 维 吉 尼 亚 音 尾 和 
























































变色 交尾 3 种 分 类 中 之 一 。 
和 前 面 小 节 一 样 ，get train test 函数 返回 分 层 的 训练 集 和 测试 集 ， 我 们 调用 
scikit-learn HHJStratifiedShuffleSplit 确保 这 两 个 数据 集 里 的 类 别 标签 分 布 









































一 致 。 

































































接着 调用 build model 方法 在 训练 集 上 构建 决策 树 ， 我 们 用 scikit-learn 的 模 
型 树 里 的 DecisionTreeClassifier 类 实现 了 决策 树 。 














model = tree.DecisionTreeClassifier (criterion="entropy") 





如 你 所 见 ， 我 们 用 criterion 变量 指定 了 特征 测试 条 件 是 炉 值 ， 然 后 调用 fit 函数 
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并 返回 模型 给 调用 的 程序 。 

RA, H test_model 函数 对 模型 进行 评估 ， 模 型 需要 实例 zx、 类别 标签 y、 决 策 树 
模型 model 以 及 类 别 标签 的 名 字 label_names 等 参数 。 


scikit-learn 的 指标 模块 提供 了 3 种 评估 标准 。 


























from sklearn.metrics import accuracy score,classification \ 


report,confusion matrix 


本 章 的 简介 里 已 经 对 准确 度 进行 过 定义 。 

简介 中 还 定义 了 混 涌 矩阵 ， 它 用 来 评估 模型 的 效果 十 分 好 用 。 我 们 更 关注 的 是 真正 类 
和 错 报 这 两 栏 的 值 。 

最 后 ， 我 们 采用 classification report 来 打印 输出 精度 、 召 回 率 和 Fl 值 等 





x 























我 们 先 对 训练 集 上 的 模型 结果 进行 评 佑 ， 如 图 6-13 所 示 。 


Model accuracy = 100.00% 


Confusion Matrix 
array([[46e, e, 
[ 0, 40, e], 
[ 0, e, 40]]) 


precision recall fi-score support 


setosa 1. 
versicolor 1. 
virginica 1. 


avg / total 














训练 集 上 的 结果 非常 好 ， 准 确 度 为 100%， 但 真正 有 效 的 结果 是 在 测试 集 上 进行 测试 。 
对 测试 集 上 的 模型 结果 进行 评估 的 输出 如 图 6-14 所 示 。 
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Model accuracy = 100.00% 


Confusion Matrix 


array([[10, 
[ e, 
[ e, 

None 

[[10 e e] 

[e1e e] 

[e e e] 


Classification Report 


precision recall support 


setosa = . 10 
versicolor i n a 10 
virginica . . . 10 





avg / total ` " S 3e 








图 6-14 
我 们 的 分 类 器 在 测试 集 上 执行 的 效果 也 非常 好 。 
654 更 多 内 容 
现在 来 检测 模型 ， 看 看 各 个 特征 所 具备 的 区 分 不 同 分 类 的 能 





def get feature names () : 
data = load iris() 
return data['feature names'] 





def probe model (x,y,model,label names): 


feature names - get feature names() 





feature importance = model.feature importances 





print "XnFeature ImportanceWn" 





print " Mn" 
for i,feature name in enumerate(feature names): 











print "$s = $0.3f"$(feature name,feature importance[i]) 





# 将 决策 树 导出 成 图 


tree.export graphviz (model,out file='tree.dot') 

















决策 树 分 类 器 对 象 提供 了 一 个 feature importances 属性 , 它 能 用 来 检索 各 个 特 
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征 在 建 模 过 程 中 的 重要 程度 。 

我 们 编写 了 一 个 简单 的 函数 get_feature_names， 用 来 检索 属性 名 ， 它 也 可 以 被 添 
加 到 get_data 函数 中 。 

来 看 看 打印 输出 的 结果 ， 如 图 6-15 所 示 。 


























Feature Importance 





sepal length (cm) = 0.014 
sepal width (cm) = 0.014 
petal length (cm) = 0.074 
petal width (cm) = 0.897 





图 6-15 

















上 图 说 明了 花瓣 的 宽度 和 长 度 在 区 别 分 类 的 时 候 起 到 了 更 重要 的 作用 。 

我 们 还 可 以 把 分 类 器 构建 的 树 导 出 成 点 阵 文件 ， 然 后 使 用 GraphViz 包 进 行 可 视 化 ， 
上 面 代码 的 最 后 一 行 实现 了 导出 功能 。 

# 将 决策 树 导出 成 图 


tree.export graphviz (model,out file='tree.dot') 



































要 下 载 和 安装 Graphviz 包 来 实现 可 视 化 ， 请 访问 : http://www.graphviz.org/。 
6.5.5 参考 资料 
第 6 章 “ 机 器 学 习 1” 中 6.2 节 “ 为 建 模 准 备 数 据 ” 的 相关 内 容 。 
第 6 章 “ 机 器 学 习 1” 中 6.3 节 “ 查 找 最 近邻 ”的 相关 内 容 。 
第 6 章 “ 机 器 学 习 1” 中 6.4 节 “ 用 朴素 贝 叶 斯 分 类 文档 ”的 相关 内 容 。 














第 7 章 
机 器 学 习 2 
在 这 一 章 中 ， 我 们 将 探讨 以 下 主题 。 


e. 回归 方法 预测 实数 值 
。 学 习 L2 缩减 回归 岭 回 归 


















































。 学 习 L1 缩减 回归 一 一 LASSO 
e L1 4 L2 缩减 交叉 验证 迭代 





7.1 简介 


























本 章 主要 介绍 回归 技术 及 其 在 Python 中 的 编码 实现 ,并 讨论 回归 方法 的 一 些 固 有 的 缺 

点 。 然 后 讨论 如 何 用 缩减 方法 实现 同样 的 目的 ， 重 点 是 参数 的 调整 ， 最 后 用 交叉 验证 技术 
找 出 缩减 方法 的 最 佳 参数 。 
前 面 章节 关注 了 一 些 分 类 问题 ， 本 章 关 注 的 是 回归 问题 。 对 于 前 者 ， 反 应 变量 了 要 人 么 
是 二 元 值 , 要 么 是 一 系列 离散 值 (多 分 类 和 多 标签 情形 )。 后 者 则 不 同 , 反应 变量 是 实数 值 。 
习 归 可 以 被 认为 是 一 种 函数 逼近 ， 它 的 任务 是 找到 这 样 一 个 函数 : 当 一 系列 随机 变量 
X 作为 函数 的 输入 时 ， 返 回 反应 变量 Y. X 也 称 为 自 变 量 ， 了 是 因 变 量 。 

我 们 还 会 采用 之 前 章节 应 用 的 一 些 技术 ， 如 把 数据 集 划分 为 训练 集 、dev 集 和 测试 集 ， 
在 训练 集 上 迭代 建 模 ， 在 dev 集 上 验证 ， 最 后 在 测试 集 上 获得 模型 的 良好 结 

我 们 的 开篇 是 用 最 小 二 乘 估计 法 解决 一 元 线性 回归 问题 ， 首 先 介绍 一 下 回归 方法 的 杠 
架 ， 这 也 是 理解 后 续 章节 的 基础 背景 知识 。 虽 然 威力 强大 ， 简 单 回 归 框架 仍 受制 于 一 个 缺 
陷 : 由 于 线性 回归 采用 的 系数 值 上 限 和 下 限 无 法 控制 , 对 给 定 的 数据 ,回归 容易 过 拟 合 ( 线 
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性 回归 的 代价 等 式 是 无 约束 下 


] 














执行 效果 不 佳 ， 缩 减 方法 就 














两 种 缩减 方法 : LASSO fl 
递 给 岭 的 参数 alpha。 





H 


M— 

















， 我 们 会 详细 讨论 )。 








H 





Ho dei — n 4r 2E SUR ul 








7.2 回归 方法 预测 实数 值 














开始 之 前 ， 我 们 先 快速 浏览 一 下 回归 的 一 般 操 作 过 程 ， 这 是 

















M— 











NEB x m Ate. 














H 











-EL 
FR. o 


系列 实数 项 所 组 成 的 向 








我 们 将 使 月 
数据 

















本 例 上 
13 ATRN a ATEZ 











Hey 


述 。 
































是 函数 再 近 的 一 种 特殊 


Xi={Xi, Xo» 


归 的 任务 是 找到 这 样 一 个 函数 : 


H Boston 房屋 数据 集 来 解释 








值 传递 给 它 ， 
函数 F(X) 是 线 怕 











1 
FH 








上 面 等 式 中 的 变 
wi 的 数值 ，wi 也 被 称 为 




















H 














w; 是 未 知 的 ， 建 模 的 过 程 
归 模 型 的 系数 。 





多 式 ， 下 面 是 一 系列 预测 因 


对 于 未 知 数 所 
来 解决 这 个 问题 ， 它 也 被 称 为 正则 化 方法 。 
E 的 概念 ， 并 例 





X-(xi; X25... Xn } 


seo Xim} i=l to 


NA 





F(X)=Y 
回归 








EAE. 











F(X)2wgtwxyEWoxst. . -+W nXm 











一 个 线性 回归 模型 定义 丸 








] 








P: 使 用 训练 集 数据 来 查找 系 


w-(wi; Wo» ...» 





Wm) 


X 作为 函数 的 输入 时 ， 返 回 


Ho CEMA X REH 





8 的 回归 模 
后 面 的 两 
举 如 何 用 它 





Ww. fH 


























H 





T. 


n 


LE 解 回归 及 后 续 章 


型 可 能 
节 介 绍 


评估 伟 





节 的 





日 





反应 变量 Y, 








下 面 的 链接 详细 介绍 了 Boston 房 


f&: https;//archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.names o 


的 反应 变量 Y 是 Boston 地 区 自 住 房 的 中 位 价格 ， 之 前 的 页 面 链接 提供 了 所 有 








Y 元 





gt 





全 
E? 





因 





此 被 命名 为 线性 





Wi 
o 











这 个 回归 问题 被 定义 为 找到 一 个 函数 ， 将 之 前 的 未 知 预 测 器 数 
它 可 以 返回 房屋 的 中 位 价格 。 


E 回 归 模 型 的 输 





回归 。 


就 是 找 出 这 些 ww。 我 们 用 训练 集 来 找寻 
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2 
*o- ss] 
il j=0 

这 个 式 子 的 值 尽 可 能 地 小 。 

这 个 等 式 的 值 〈 用 优化 技术 的 术语 就 是 代价 函数 ) 越 小 ， 线 性 回归 模型 的 效果 越 好 。 
此 ， 这 个 优化 问题 就 是 使 得 上 面 的 等 式 最 小 化 ， 也 就 是 说 ， 找 出 使 得 等 式 值 最 小 的 wi 系 
数 。 我 们 对 使 用 的 优化 方法 不 做 深入 的 讲解 ， 不 过 ， 下 面 两 节 的 内 容 需 要 对 目标 函数 有 
定 了 解 。 

现在 的 问题 是 ， 我 们 使 用 训练 集 建 模 找到 的 系数 wi1，w，，...，wm， 能 不 能 准确 地 预测 
未 知 的 记录 呢 ?” 此 时 我 们 要 再 次 用 到 前 面 介绍 过 的 代价 函数 。 把 模型 应 用 到 dev. 集 或 测试 
集 的 时 候 ， 我 们 注意 一 下 真实 值 和 预测 值 的 平均 平方 差 ， 计 算 方 法 如 下 。 
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1 n 
D (ye — Y — predicted) 
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i-l 





























上 面 这 个 式 子 被 称 为 均 方 误差 一 一 用 它 可 以 衡量 回归 模型 是 否 可 用 。 我 们 希望 输出 模 
型 的 真实 值 和 预测 值 的 平均 平方 差 尽 可 能 小 ， 这 种 查找 系数 的 方法 称 为 最 小 二 乘 估计 。 

我 们 将 使 用 scikit-learn 库 里 的 LinearRegression 类 ， 它 在 内 部 采用 了] 
scipy.linalg.lstsq 方法 ， 这 个 最 小 二 乘法 给 我 们 提供 了 回归 问题 的 封闭 形式 的 解决 
方案 。 下 面 的 链接 介绍 了 更 多 关于 最 小 二 乘法 及 其 派生 品 的 信息 ， 请 参见 : 


https://en.wikipedia.org/wiki/Least squares; 




















































































































https://en.wikipedia.org/wiki/Linear least squares (mathematics). 
我 们 还 对 回归 做 了 一 些 简单 的 介绍 ， 有 兴趣 的 读者 可 以 阅读 以 下 两 本 书 。 
http://www.amazon.com/exec/obidos/ASIN/0387952845/trevorhastie-20 - 























http://www.amazon.com/Neural-Networks-Learning-Machines-Edition/dp/0131471392. 


7.2.1 准备 工作 


Boston 房屋 数据 集中 有 13 个 属性 和 506 个 实例 , 目标 变量 是 一 个 实数 值 以 及 数 以 千 记 
房屋 的 中 位 价值 。 
关于 Boston 数据 集 的 更 多 信息 ， 请 参见 : 
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https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.names 。 


我 们 提供 了 预测 器 和 反应 变量 的 名 字 ， 如 图 7-1 所 示 。 


. CRIM 
。 ZN 


. INDUS 
. CHAS 


. NOX 
. RM 
. AGE 
. DIS 
. RAD 
. TAX 


7.2.2 ”操作 方法 





per capita crime rate by town 

proportion of residential land zoned for lots over 
25,000 sq.ft. 

proportion of non-retail business acres per town 
Charles River dummy variable (= 1 if tract bounds 
river; 0 otherwise) 

nitric oxides concentration (parts per 10 million) 
average number of rooms per dwelling 

proportion of owner-occupied units built prior to 1940 
weighted distances to five Boston employment centres 
index of accessibility to radial highways 

full-value property-tax rate per $10,000 

pupil-teacher ratio by town 

1000(Bk - 0.63)^2 where Bk is the proportion of blacks 
by town 

* lower status of the population 

Median value of owner-occupied homes in $1000's 


图 7-1 








先 加 载 必需 的 库 ， 随 后 定义 第 1 个 函数 get_qata0， 在 该 函数 中 ， 我 们 读 取 Boston 
数据 集 ， 并 将 其 返回 给 预测 器 x 和 反应 变量 y. 





# ”加 载 必需 的 库 


from sklearn.datasets import load boston 


from sklearn.cross validation import train test split 


from sklearn.linear model import LinearRegression 


from sklearn.metrics import mean squared error 
import matplotlib.pyplot as plt 


from sklearn.preprocessing import PolynomialFeatures 


def get data(): 


Return boston dataset 


as x - predictor and 


y - response variable 


data = load boston() 
x = data['data'] 
y = data['target'] 


return x,y 


随后 的 bulid model 函数 针对 给 定 的 数据 构建 线性 回归 模型 。 接 着 我 们 用 两 个 函数 


























7.2 回归 方法 预测 实数 值 
view model 和 model worth 来 评估 生成 的 模型 。 
def build model (x,y): 
non ow 
Build a linear regression model 
now ow 
model = LinearRegression(normalize-True,fit intercept-True) 
model.fit(x,y) 
return model 
def view model (model): 
non ow 
Look at model coeffiecients 
non ow 
print "Xn Model coeffiecients" 
print " Mn" 
for i,coef in enumerate (model.coef ): 
print "NtCoefficient $d %0.3f"%(i+1,coef) 
print "AnNtIntercept $0.3f"$(model.intercept ) 
def model worth(true y,predicted y): 
non ow 
Evaluate the model 
nono" 
print "NtMean squared error = $0.2f"$(mean squared error(true y, 





predicted y)) 





plot residual 函数 用 来 绘制 出 回归 模型 的 残 差 。 








def plot residual(y,predicted y): 


Wm 


Plot residuals 

"nn 

plt.clat) 

plt.xlabel("Predicted Y") 
plt.ylabel("Residual") 
plt.title("Residual Plot") 
t.figure(1) 

diff = y - predicted y 

plt.plot (predicted y,diff,'go') 











plt.show() 
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最 后 编写 main 函数 ， 用 它 调 用 之 前 的 所 有 函数 。 






































if name == " gain ": 





x,y = get data() 


# 将 数据 集 划 分 成 训练 集 、dev 集合 测试 集 
x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 








x dev,x test,y dev,y test = train test split(x test all,y test ^ 








all,test size-0.3,random state-9) 


# 建 模 
model = build model (x train,y train) 
predicted y = model.predict (x train) 





# 绘 出 残 差 
plot residual(y train,predicted y) 
# 查看 模型 的 系数 


view model (model) 


print "Xn Model Performance in Training set'n" 
model worth(y train,predicted y) 


# 将 模型 应 用 到 dev 数据 集 上 
predicted y = model.predict(x dev) 





print "Xn Model Performance in Dev set'n" 
model worth(y dev,predicted y) 


# 准备 一 些 多 项 式 特征 

poly features = PolynomialFeatures (2) 

poly features.fit(x train) 

x train poly = poly features.transform(x train) 
x dev poly = poly features.transform(x dev) 


+ 用 多 项 式 特征 建 模 


model poly = build model (x train poly,y train) 








predicted y = model poly.predict(x train poly) 





print "Xn Model Performance in Training set (Polynomial features) n" 
model worth(y train,predicted y) 


# 将 模型 应 用 到 dev 数据 集 上 
predicted y = model poly.predict(x dev poly) 








print "Xn Model Performance in Dev set (Polynomial features) Vn" 
model worth(y dev,predicted y) 
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# 将 模型 应 用 到 测试 集 上 


x test poly = poly features.transform(x test) 





predicted y = model poly.predict (x test poly) 


print "Xn Model Performance in Test set (Polynomial features) \n" 
model worth(y test,predicted y) 


predicted y - model.predict (x test) 





print "Xn Model Performance in Test set (Regular features) Wn" 
model worth(y test,predicted y) 


7.233 ”工作 原理 


我 们 从 主 模块 开始 ， 先 用 get data 函数 加 载 预测 器 x 和 反应 变量 y。 


出 | 





def get data(): 
"nw 
Return boston dataset 
as x — predictor and 
y - response variable 
"nw 
data = load boston() 
x = data['data'] 
y = data['target'] 


return x,y 


这 个 函数 调用 了 scikit-learn HJ 1oead boston ()， 它 可 以 将 Boston 房屋 价格 
数据 集 转换 为 NumPy 数组 。 

接着 用 scikit 库 里 的 train_test_split 函数 把 数据 划分 为 训练 集 和 测试 集 ， 我 
们 保留 30% 的 数据 作为 测试 集 。 








È 





























x train,x test all,y train,y test all = \ 
train test split(x,y,test size = 0.3,random state-9) 


下 一 行 代码 又 从 中 抽取 了 dev f&. 








x dev,x test,y dev,y test = train test split(x test all,y test ^ 








all,test size-0.3,random state-9) 











接 下 来 的 一 行 调用 build model 方法 用 训练 集 来 建 模 ， 模 型 创建 了 一 个 
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LinearRegression 类 的 对 象 ， 这 个 类 封装 了 SciPy 的 最 小 二 乘法 。 








model = LinearRegression(normalize-True,fit intercept-True) 


让 





一 下 类 初始 化 时 传递 的 参数 。 


fit intercept 参数 设置 为 True， 这 告诉 线性 回归 类 将 数据 中 心 化 。 这 种 情况 下 ， 
每 个 预测 器 的 平均 值 都 被 设置 为 0。 线 性 回归 方法 需要 数据 以 它 的 平均 值 为 中 心 ， 这 样 易 
于 解释 它 的 回归 常数 。 除 了 将 各 个 属性 用 它 的 平均 值 做 中 心 化， 我 们 还 要 把 每 个 属性 用 它 
的 标准 差 进行 标准 化 ， 方 法 是 使 用 normalize 参数 ， 将 其 设置 为 True。 请 参看 第 3 章 里 
3.10 节 、3.11 节 里 针对 每 一 列 缩放 数据 和 标准 化 数据 的 相关 内 容 。 我 们 采用 
fit intercept 参数 控制 算法 来 包含 一 个 回归 常数 ， 这 样 可 以 适应 反应 变量 的 任何 常数 
偏 移 。 最 后 ， 我 们 用 反应 变量 y 和 预测 器 x 调用 ftit 函数 来 适 配 模型 。 




































































































































































































































































， ”请 参看 Trevor Hastie 等 人 所 著 的 《The Elements of 
$ NS Statistical Learning》， 该 书 提 供 了 线性 回归 方法 论 的 更 
多 信息 。 
对 我 们 所 建 的 模型 进行 检查 是 一 个 很 好 的 习惯 ， 这 有 助 于 更 好 地 理解 模型 ， 便 于 将 来 
对 它 进 行 提 高 和 解读 。 
现在 调用 plot residual 方法 来 绘 出 残 差 (预测 的 y 值 和 真实 y 值 的 差异 ) 和 预测 
的 y 值 的 散 点 图 。 
# 绘制 残 差 


plot residual(y train,predicted y) 


































































































得 到 的 图 形 如 图 7-2 所 示 。 


我 们 可 以 用 这 个 散 点 图 来 验证 数据 集中 的 回归 假定 ， 图 中 没有 出 现任 何 模式 ， 而 且 各 
个 点 均匀 散落 在 零 残 差 值 周围 。 



























































请 参看 Daniel. T. Larose 所 著 的 《Data Mining Methods 
QS and Models》， 该 书 介绍 了 许多 使 用 残 差 图 来 验证 线性 
回归 假定 的 方法 。 
我 们 用 view model 方法 对 模型 进行 检查 ,这 个 方法 打印 出 回归 常数 和 系数 的 值 。 线 
性 回归 对 象 有 两 个 属性 : 一 个 是 coef ， 提 供 了 一 个 系数 矩阵 ， 另 一 个 是 intercept , 
提供 了 回归 常数 。 输 出 如 图 7-3 所 示 。 
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Residual Plot 


Model coeffiecients 


Coefficient 1 -0.109 
Coefficient 2 0.0435 
Coefficient 3 90.053 
Coefficient 4 2.237 
Coefficient 5 -15.879 
Coefficient 6 3.883 
Coefficient 7 0.001 
Coefficient 8 -1.321 
Coefficient 9 9.284 
Coefficient 10 -0.012 
Coefficient 11 -0.904 
Coefficient 12 0.009 
Coefficient 13 -0.529 


Intercept 33.288 








图 7-2 图 7-3 








请 注意 coefficient 6， 它 代表 的 是 房屋 的 可 居住 房间 数 ， 这 个 系数 可 以 这 样 解读 : 
每 增加 一 个 房间 ， 房 屋 的 价格 提高 3 倍 。 

最 后 我 们 用 model worth 函数 来 评估 模型 的 效果 ， 方 法 是 对 训练 集 和 dev 集 里 的 预 
测 反应 变量 和 真实 反应 的 数值 进行 比较 。 

这 个 函数 打印 输出 了 均 方 误差 的 值 ， 也 即 真实 值 和 
预测 值 的 平方 差 的 平均 值 ， 结 果 如 图 7-4 所 示 。 



































Model Performance in Training set 


Mean squared error = 23.18 


Model Performance in Dev set 


dev 集 上 得 到 的 值 更 低 ， 这 个 值 是 用 来 表明 模型 效 EAE 
果 的 。 我 们 看 看 能 不 能 让 均 方 误差 更 好 点 ， 如 果 给 模型 














图 7-4 








提供 更 多 的 特征 会 怎样 ? 现在 试 试 用 scikit-learn 
里 的 PolynomialFeatures 类 创建 二 阶 多 项 式 ， 这 样 就 能 从 现 有 的 属性 里 再 创建 一 些 
特征 。 














# 准备 一 些 多 项 式 特征 

poly features = PolynomialFeatures (2) 

poly features.fit(x train) 

x train poly = poly features.transform(x train) 
x dev poly = poly features.transform(x dev) 





把 2 作为 参数 传递 给 PolynomialFeatures， 指 明 我 们 需要 的 是 二 阶 多 项 式 ，2 也 
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是 这 个 类 作为 空 值 进行 初始 化 时 的 默认 值 。 
快速 浏览 下 新 的 x 的 形态 ， 如 图 7-5 所 示 ， 现 在 它 有 105 


个 属性 ， 和 原来 的 13 个 相差 甚大。 我 们 用 新 的 多 项 式 特征 来 
建 模 ， 看 看 模型 的 精确 度 会 怎样 变化 。 


# 用 多 项 式 特征 建 模 


model poly = build model (x train poly,y train) 
































predicted y = model poly.predict(x train poly) 





»»» x train poly.shape 
(354, 105) 


»»» x train.shape 








D 








7-5 





print "Xn Model Performance in Training set (Polynomial features) n" 


model worth(y train,predicted y) 


# 将 模型 应 用 到 dev 数据 集 上 
predicted y = model poly.predict (x dev poly) 








print "Xn Model Performance in Dev set (Polyno 
model worth(y dev,predicted y) 





mial features)n" 


如 图 7-6 所 示 ， 模 型 非常 适合 训练 集 ， 并 且 在 dev 集 和 训练 集 上 ， 采 用 新 的 多 项 式 特 














征 比 采 用 原始 特征 的 效果 要 更 好 。 





Model Performance in Training set (Polynomial features) 


Mean squared error = 5.38 


Model Performance in Dev set (Polynomial features) 


Mean squared error = 13.20 











图 7-6 




















最 后 来 看 看 在 测试 集 上 采用 新 的 多 项 式 特征 和 采用 原始 特 和 
# 将 模型 应 用 到 测试 集 上 


x test poly = poly features.transform(x test) 





predicted y = model poly.predict (x test poly) 





print "Xn Model Performance in Test set (Polyn 
model worth(y test,predicted y) 


predicted y = model.predict(x test) 








print "Xn Model Performance in Test set (Regul 
model worth(y test,predicted y) 





FE 的 模型 效果 对 比 。 





omial features) \n" 


ar features) \n" 























如 图 7-7 所 示 ， 在 测试 集 上 ， 采 用 新 的 多 项 式 特 征 比 采用 
多 。 


di 


原始 特征 的 模型 效果 要 好 





Model Performance in Test set (Polynomial features) 


Mean squared error - 14.92 


Model Performance in Test set (Regular features) 





Mean squared error - 21.66 





图 7-7 

















以 上 这 些 是 你 在 Python 中 应 用 线性 回归 所 必须 知道 的 , 我 们 了 解 了 线性 回归 方法 如 何 
工作 ， 明 白 了 怎样 建 模 来 预测 实数 值 。 


7.2.4 更 多 内 容 


在 更 进一步 之 前 ， 我 们 还 要 了 解 一 个 名 为 PolynomialFeatures 的 类 里 的 参数 
interaction only 的 设置 。 


















































poly features = PolynomialFeatures (interaction only-True) 


interaction only 被 设置 为 True， 此 时 ， 对 于 xi 和 x2， 只 有 xi*x2 属性 被 创 
建 ， 假 定 维度 是 2，x1l 和 x2 的 平方 并 没有 被 创建 。 


对 于 普通 的 特征 和 多 项 式 特征 ， 测 试 集 的 结果 都 不 如 dev 集 的 结果 ， 这 是 线性 回归 的 
一 个 已 知 的 问题 。 线 性 回归 不 太 能 处 理 方差 ， 我 们 面 对 的 问题 是 高 方差 和 低 偏差 《预测 均 
值 与 实际 值 期 望 的 偏差 >。 当 模型 的 复杂 度 提高 时 ， 也 就 是 给 模型 的 属性 数量 增加 了 ， 模 型 
趋向 于 更 好 地 适应 训练 集 一 一 意味 着 低 偏差 ， 而 对 于 测试 集 的 效果 就 退化 了 。 不 过 现在 有 
一 些 技 术 能 够 解决 这 个 问题 。 

这 里 介绍 一 种 叫 作 递归 特征 选择 的 方法 ， 这 种 方法 将 所 需 的 特征 数量 作为 参数 ， 然 后 
递归 地 对 特征 进行 过 滤 。 在 第 i 次 循环 时 ， 一 个 线性 模型 匹配 了 数据 ， 基 于 此 时 的 系数 值 
对 属性 进行 过 滤 ， 权 重 低 的 属性 被 排除 掉 ， 然 后 继续 对 剩余 的 属性 进行 迭代 。 最 后 获得 所 
需 数量 的 属性 后 ， 友 代 过 程 结束 。 下 面 是 代码 示例 。 


# 加 载 所 需 的 库 



































—- 


f 
T 














































































































from sklearn.datasets import load boston 

from sklearn.cross validation import train test split 
from sklearn.linear model import LinearRegression 
from sklearn.metrics import mean squared error 


import matplotlib.pyplot as plt 
from sklearn.preprocessing import PolynomialFeatures 


from itertools import combinations 














from sklearn.feature selection import RFE 
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def get data(): 
non ow 
Return boston dataset 
as x - predictor and 
y - response variable 
non ow 
data = load boston() 
x = data['data'] 
y = data['target'] 


return x,y 


def build model(x,y,no features): 


Ww 


Build a linear regression model 


mn 





model = LinearRegression(normalize-True,fit intercept-True) 
rfe model = RFE(estimator-model,n features to select-no features) 











rfe model.fit (x,y) 
return rfe model 


def view model (model): 


CELEI 





Look at model coeffiecients 
mm 
print "Xn Model coeffiecients" 
print " An" 
for i,coef in enumerate (model.coef ): 
print "NtCoefficient $d %0.3f"%(i+1,coef) 











print "WAnNtIntercept $0.3f"$(model.intercept ) 


def model worth(true y,predicted y): 


mn 


Evaluate the model 


mn 





print "NtMean squared error = $0.2f"$(mean squared \ 
error(true y,predicted y)) 
return mean squared error(true y,predicted y) 


def plot residual(y,predicted y): 


Wm 


Plot residuals 


7.2 
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plt.cla() 
plt.xlabel("Predicted Y") 
plt.ylabel ("Residual") 
plt.title("Residual Plot") 
t.figure(1) 

diff = y - predicted y 
plt.plot (predicted y,diff,'go') 
plt.show() 











def subset selection(x,y): 


mn nm 


subset selection method 


UEURI 


# 声明 变量 用 来 追踪 能 产生 最 低 均 方 误差 的 模型 和 属性 


choosen subset = Non 








low mse = 1e100 

choosen model = Non 

# k 的 取 值 范围 从 1 到 x 里 的 属性 数量 

for k in range(1,x.shape[1]-*41): 
print "k= $d "$£(k) 
# 评估 所 有 的 大 小 为 k+1 的 属性 组 合 


subsets = combinations (range (0,x.shapel[1]),k+1) 























for subset in subsets: 
x subset = x[:,subset] 
model = build model(x subset, y) 
predicted y = model.predict(x subset) 
current mse - mean squared error(y,predicted y) 





if current mse « low mse: 


low mse = current ms 








choosen subset - subset 





choosen model = model 


return choosen model, choosen subset,low mse 


if name == " main ": 





x,y = get data() 


# 将 数据 集 划分 为 训练 集 、dev 集合 测试 集 
x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 








x dev,x test,y dev,y test = train test split(x test all,y test ^ 
all,test size-0.3,random state-9) 
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# 准备 一 些 多 项 式 特征 


poly_featur 


es = PolynomialFeatures (interaction only=True) 


poly features.fit(x train) 


x train pol 


x dev poly 


#choosen model,choosen subset,low ms 


poly,y train) 


y = poly features.transform(x train) 


= poly features.transform(x dev) 


= subset selection(x train. 





choosen model = build model (x train poly,y train,20) 
# 打印 出 choosen subset 











predicted y = choosen model.predict(x train poly) 
print "Xn Model Performance in Training set 


mse = model worth(y train,predicted y) 


# 将 模型 应 用 到 dev RE 


predicted y = choosen model.predict (x dev poly) 





print "Xn Model Performance in Dev set 


model worth(y dev,predicted y) 


# 将 模型 应 用 到 测试 集 上 


x test poly 


= poly features.transform(x test) 


predicted y = choosen model.predict (x test poly) 





print "Xn Model Performance in Test set 


model worth(y test,predicted y) 


这 些 代 码 除 了 build model 方法 ， 和 之 前 的 线性 回 








def build model (x,y,no features): 


mn nm 


Build a linear regression model 


mn nm 





(Polynomial features) \n" 


(Polynomial features) \n" 


(Polynomial features) \n" 


归 代 码 十 分 相似 。 


model = LinearRegression(normalize-True,fit intercept-True) 





rfe model = RFE(estimator-model,n features to select-no features) 





rfe model.fit (x,y) 


return rfe model 











除了 预测 器 x 和 反应 变量 y，build model 还 接收 保留 的 特征 数量 no features 
作为 参数 。 本 例 中 ， 这 个 值 是 20， 让 回归 特征 消除 的 过 程 只 保留 20 个 最 重要 的 特征 。 如 




















你 所 见 ， 我 们 先 创 建 一 个 线性 


elimination 〈 回 归 特 生 


i 











ERO", 





H 








这 个 类 由 





























回归 对 象 ， 把 它 传递 给 RFE 类 ， 


RE 








E 代表 “recursive feature 





scikit-learn 提供 。 现 在 来 看 看 训练 集 、dev 





合 测试 集 上 的 模型 效果 评估 。 
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如 图 7-8 所 示 ， 测 试 集 上 的 均 方 误差 是 13.2， 几 乎 只 有 之 前 的 一 半 。 这 样 ， 我 们 可 以 
回归 特征 消除 方法 来 高 效 地 执行 特征 选择 并 提高 模型 的 效果 。 























[Model Performance in Training set (Polynomial features)| 
Mean squared error = 13.34 

Model Performance in Dev set (Polynomial features) 
Mean squared error = 11.51 


Model Performance in Test set (Polynomial features) 








Mean squared error - 13.20 
7-8 


7.25. 参考 资料 


第 3 章 “ 数 据 分 析 一 一 探索 与 争鸣 ”中 3.10 节 “ 缩 放 数据 ”的 相关 内 容 。 
第 3 章 “ 数 据 分 析 一 一 探索 与 争鸣 ”中 3.11 节 “ 数 据 标准 化 ”的 相关 内 容 。 
第 6 章 “ 机 器 学 习 1” 中 6.2 节 “ 为 建 模 准备 数据 ”的 相关 内 容 。 


ig ea 




















7.3 学 习 L2 缩 六 




















现在 把 之 前 讨论 过 的 回归 技术 进行 扩展 一 一 加 入 正则 化 。 在 训练 线性 回归 模型 时 ， 有 
的 系数 取 值 很 大 ， 导 致 模型 很 不 稳定 。 正 则 化 或 者 缩减 是 控制 系数 权重 的 一 种 途径 ， 这 样 
权重 不 会 使 用 过 大 的 数值 。 我 们 再 来 看 下 线性 回归 的 代价 函数 中 哪些 性 质 是 回归 所 固有 的 ， 
以 及 控制 系数 的 权重 到 底 是 什么 意思 。 




































































w= (Wps W,,W5,**,W,) 


2 
n m 
2 7 
il j-0 





线性 回归 试 着 找 出 系数 wo…w， 使 得 上 面 的 式 子 取 最 小 值 。 对 于 线性 回归 ， 这 里 有 些 
地 方 要 关注 。 

如 果 数 据 集 里 包含 着 大 量 关 联 的 预测 器 ， 仪 仅 微 小 的 改变 就 可 能 导致 模型 不 稳定 。 此 
外 ， 我 们 还 要 面 对 如 何 解释 模型 的 问题 。 例 如 ， 假 定 有 两 个 负 相 关 的 变量 ， 它 们 对 反应 变 
量 的 影响 应 该 是 相反 的 。 我 们 可 以 对 相关 联 的 变量 进行 手工 检查 ， 并 删除 其 中 起 主导 因素 
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的 变量 ， 然 后 再 进行 建 模 。 当 然 ， 如 果 能 够 自动 完成 这 些 操作 ， 那 会 方便 得 多 。 



































订 面 章节 里 曾 介 绍 过 一 种 叫 作 回归 特征 消除 的 方法 ， 用 它 来 保持 最 有 信息 量 的 属性 并 
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丢弃 其 他 属性 ， RADERA RENER, 要 么 丢弃 它 ， 只 有 二 元 的 选择 。 本 节 里 ， 我 





























们 要 介绍 一 种 方法 ， 它 可 以 控制 与 变量 关联 的 权重 ， 从 而 将 不 必要 的 变量 的 系数 大 幅 惩罚 











降低 ， 最 终 仅 有 很 低 的 权重 。 
我 们 把 线性 回归 的 代价 函数 进行 修改 ， 将 系数 包含 进来 。 如 你 所 知 ， 



































小 ， 模 型 的 效果 才 好 。 a E UN 

















代价 函数 的 值 最 




















eH 


罚 。 一 般 而 言 ， 这 种 方法 称 为 缩减 方法 ， 因 为 它们 减 小 了 系数 的 值 。 本 节 我 们 讨论 的 是 工 




















缩减 ， 更 常见 的 叫 法 是 岭 回归 。 我 们 先 看 看 它 的 代价 函数 。 




















如 你 所 见 ， 代 价 函数 里 增加 了 系数 的 平方 和 。 这 样 ， 在 优化 过 程 查 找 上 式 最 小 值 的 过 




















程 中 ， 它 必须 大 大 减 小 系数 的 值 来 达到 目标 。 参 数 a 决定 了 缩减 的 幅度 ， 
幅度 越 大 ， 系 数 的 值 趋 近 于 0。 
了 解 了 这 些 数 学 背景 知识 ， 现 在 可 以 开始 岭 


7.3. 准备 工作 
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归 的 实战 了 。 






































[24 值 越 大 ， 缩减 











本 节 我 们 仍 使 用 Boston 数据 集 来 演示 岭 回 归 ， 它 有 13 个 属性 和 506 个 实例 。 目 标 变 
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是 一 个 实数 值 以 及 数 以 千 记 房屋 的 中 位 价值 。 关 于 Boston 数据 集 的 更 多 信息 ， 请 参见 : 


https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.names。 











我 们 准备 生成 二 维 的 多 项 式 特征 ， 并 只 
数 被 惩罚 的 幅度 大 小 。 


7.3.2 ”操作 方法 


先 加 载 必需 的 库 ， 随 后 定义 第 1 个 函数 get data ()， 在 该 函数 中 
数据 集 ， 并 将 其 返回 给 预测 器 x 和 反应 变量 y。 


# 加 载 库 


from sklearn.datasets import load boston 








F 






































from sklearn.cross validation import train test split 


考虑 相关 的 效果 。 本 节 结 束 时 ， 我 们 会 看 到 系 


， 我 们 读 取 Boston 


7.3 学习 L2 缩减 回归 一 一 岭 回 


from sklearn.linear model import Ridge 


from sklearn.metrics import mean squared error 


from sklearn.preprocessing import PolynomialFeatures 


def get data(): 


LER 


Return boston dataset 
as x - predictor and 
y - response variable 


mn 


data = load boston() 


x = data['data'] 
y = data['target'] 
x = X - np.mean (x, axis-0) 


return x,y 


m 
H 
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随后 的 bulid model 函数 针对 给 定 的 数据 构建 岭 回归 模型 。 接 着 我 们 用 两 个 函数 
view model 和 model worth 来 评估 生成 的 模型 。 























def build model (x,y): 


UEURI 


Build a Ridge regression model 

nono" 

model = Ridge (normalize-True,alpha-0.015) 
model.fit(x,y) 

# 追踪 均 方 残 差 以 备 给 


return model 





def 


View model (model): 


"im 


Look at model coeffiecients 

non ow 

print "Xn Model coeffiecients" 

print " Wn" 

for i,coef in enumerate (model.coef ): 


print "NtCoefficient $d $0.3f"$£(i-*1,coef) 











print "WAnNtIntercept $0.3f"$(model.intercept ) 





model worth(true y,predicted y): 


mn 





Evaluate the model 
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now ow 
print "\tMean squared error = $0.2f"£ (mean squared ^ 


error(true y,predicted y)) 
return mean squared error(true y,predicted y) 


























最 后 编写 main 函数 ， 用 它 调用 之 前 的 所 有 函数 。 

















if name == " main ": 





x,y = get data() 


# 将 数据 集 划 分 为 训练 集 、dev 集 和 测试 集 
x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 





x dev,x test,y dev,y test = train test split(x test all,y test ^ 








all,test size-0.3,random state-9) 


# 准备 一 些 多 项 式 特征 


poly features = PolynomialFeatures (interaction only-True) 





poly features.fit(x train) 

x train poly - poly features.transform(x train) 
x dev poly = poly features.transform(x dev) 

x test poly = poly features.transform(x test) 





# choosen model,choosen subset,low mse = subset selection(x train \ 
poly,y train) 
choosen model - build model(x train poly,y train) 





predicted y = choosen model.predict(x train poly) 

print "Xn Model Performance in Training set (Polynomial features) n" 
mse = model worth(y train,predicted y) 

view model (choosen model) 


# 应 用 模型 到 dev 数据 集 上 

predicted y = choosen model.predict(x dev poly) 

print "Xn Model Performance in Dev set (Polynomial features) Mn" 
model worth(y dev,predicted y) 


# 应 用 模型 到 测试 集 上 
predicted y = choosen model.predict (x test poly) 





print "Xn Model Performance in Test set (Polynomial features) \n" 
model worth(y test,predicted y) 





的 经 验 。 同 时 ， 我 们 采 
认 值 就 是 True， 没 有 必要 特意 显 式 指 明 。 





7.33 ”工作 原理 


我 们 从 主 模块 开始 ， 先 用 get data 函数 加 载 预测 器 x 和 反应 变量 y， 这 个 函数 调用 
了 scikit-learn 里 的 load boston()， 它 将 Boston 房屋 价格 数据 集 转换 为 NumPy 
数组 。 
























































7.3 
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然后 用 scikit-learn 库 里 的 train test split 函数 把 数据 划分 为 训练 集 和 测 
E, XAR ER 30% 的 数据 作为 测试 集 ， 下 一 行 代码 再 从 中 抽取 了 dev 集 。 











接着 构建 多 项 式 特征 如 下 。 


























poly features = PolynomialFeatures (interaction only=True) 


poly features.fit(x train) 


如 你 所 见 ， interaction only 被 设置 为 Tr 














ue, JH 


H, XF x1 Wü x2. 只 有 x1*x2 




















属性 被 创建 ， 假 定 维度 是 2，x1 和 x2 的 平方 并 没有 被 创建 。 默 认 维度 也 是 2。 

















x train poly = poly features.transform(x train) 





x dev poly = poly features.transform(x dev) 





x test poly = poly features.transform(x test) 












































model = Ridge (normalize-True,alpha-0.015) 


model.fit (x,y) 











数据 集 的 属性 被 中 心 化 ， 以 它 的 平均 值 为 中 心 




































































使 用 transform 函数 , 我 们 可 以 将 训练 集 、dev 集 和 测试 集 都 转换 为 包含 多 项 式 特 征 。 
接 下 来 ， 通 过 调用 builg_mogel 方法 ， 我 们 可 以 在 训练 集 上 构建 岭 回 归 模 型 。 














， 并 将 normalize 参数 设置 为 True， 
将 属性 用 标准 差 进行 标准 化 。alpha 参数 控制 缩减 的 幅度 
不 是 凭空 而 来 ， 是 多 次 运行 建 模 过 程 比较 而 来 ， 本 章 后 续 部 分 会 介绍 如 何 获 取 它 的 合适 值 
]fit intercept 参数 为 模型 调整 回归 常数 ， 其 实 这 个 参数 的 默 























， 它 的 值 设置 为 0.015， 这 个 值 





















































现在 来 看 看 训练 集 上 模型 的 执行 情况 ， 调 用 mode1l_worth 方法 获取 均 方 误差 ， 这 个 





























比较 预测 的 反应 变量 和 真实 反应 变量 来 计算 出 均 方 误差 。 








predicted y = choosen model.predict(x train poly) 


print "An Model Performance in Training 


mse = model worth(y train,predicted y) 


set (Polynomial features) \n" 
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输出 的 结果 如 图 7-9 所 示 。 


Model Performance in Training set (Polynomial features) 





Mean squared error - 11.49 








图 7-9 








把 模型 应 用 到 测试 集 之 前 ， 先 看 下 系数 的 权重 值 ， 我 们 通过 调用 view_model 函数 来 


进行 查看 。 
view model (choosen model) 


总 计 有 92 个 系数 ， 图 7-10 没有 显示 所 有 的 结果 。 不 过 ， 从 中 可 以 看 


缩减 的 效果 。 





FW, Coefficient 1 几乎 为 0 (注意 ， 它 的 值 很 小 ， 而 我 们 只 显示 3 位 有 效 数 字 )。 


Model coeffiecients 


d 


Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 








再 看 看 模型 在 dev 集 上 执行 的 效果 。 


predicted y = choosen model.predict(x dev poly) 
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print "Mn Model Performance in Dev set (Polynomial features) Wn" 
model worth(y dev,predicted y) 


结果 如 图 7-11 所 示 ， 效 果 不 错 ， 均 方 误 差 比 训练 集 上 的 要 好 。 最 后 来 看 看 模型 在 测试 
集 上 的 效果 ， 结 果 如 图 7-12 所 示 。 

















Model Performance in Dev set (Polynomial features) 


Mean squared error = 10.47 














图 7-11 








Model Performance in Test set (Polynomial features) 








Mean squared error - 12.65 








Kl 7-12 




















和 上 一 节 的 线性 回归 模型 相 比 ， 岭 回归 模型 在 测试 集 上 的 效果 更 好 一 些 。 
7.34 ”更 多 内 容 

之 前 提 到 过 ， 线 性 回归 模型 对 数据 集中 哪怕 是 微小 的 改变 都 很 敏感 ， 我 们 通 ; 
单 示 例 来 演示 这 一 点 。 


# 加 载 库 


from sklearn.datasets import load boston 














个 简 


E 





from sklearn.cross validation import train test split 
from sklearn.linear model import Ridge 

from sklearn.metrics import mean squared error 

from sklearn.preprocessing import PolynomialFeatures 





def get data(): 
non ow 
Return boston dataset 
as x - predictor and 
y - response variable 


mn 


data = load boston() 


x = data['data'] 
y = data['target'] 
x = X - np.mean (x,axis-0) 


return x,y 
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这 段 代码 里 ， 我 们 会 使 用 build_model 函数 在 原始 数据 上 适 配 线性 回归 和 岭 回 归 两 
个 模型 。 











lin model,ridg model = build model (x,y) 


在 原始 数据 里 制造 一 点 噪音 数据 ， 代 码 如 下 。 
# 往 数 据 集 里 加 入 一 些 噪音 数据 


noise = np.random.normal(0,1, (x.shape)) 




















X — X * noise 


nz 


在 噪音 化 后 的 数据 集 上 再 适 配 一 次 模型 ， 最 后 来 比较 生成 的 系数 权 习 


加 入 少量 的 噪音 之 后 ， 用 线性 回归 来 适 配 模型 ， 可 以 看 到 权重 值 和 之 前 的 模型 结果 相 
差 很 大 ， 如 图 7-13 所 示 。 然 后 我 们 也 看 到 了 岭 回 归 的 执行 结果 。 








o 











Linear Regression Model Before Noise Ridge Model Before Noise 


Model coeffiecients Model coeffiecients 
Coefficient . Coefficient 
Coefficient , Coefficient 
Coefficient b Coefficient 
Coefficient £ Coefficient 
Coefficient o Coefficient 
Coefficient 。 Coefficient 
Coefficient 。 Coefficient 
Coefficient . Coefficient 
Coefficient . Coefficient 
Coefficient 。 Coefficient 
Coefficient . Coefficient 
Coefficient E Coefficient 
Coefficient 13 . Coefficient 


Intercept 36.491 Intercept 22.775 


Linear Regression Model after Noise Ridge Model after Noise 


Model coeffiecients Model coeffiecients 


Coefficient -0.095 
Coefficient 
Coefficient 
Coefficient 
Coefficient 


Coefficient 


Coefficient 
0.053 Coefficient 
-0.045 Coefficient 
09.209 Coefficient 
0.216 Coefficient 


ici 9.841 Coefficient 
Coefficient 09.029 Coefficient 


Coefficient -0.659 Coefficient 
Coefficient 9.349 Coefficient 
Coefficient 10 -0.017 Coefficient 
Coefficient 11 -0.713 Coefficient 
Coefficient 12 0.009 Coefficient 
Coefficient 13 -0.751 Coefficient 


ONAA WNP 
DONAA WNP 


Intercept 41.003 Intercep 








图 7-13 
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岭 回归 的 系数 权重 变化 在 第 1 次 和 第 2 次 建 模 中 变化 不 大 ， 这 很 明显 地 演示 了 岭 回 归 
在 噪音 数据 环境 下 的 稳定 性 。 

选择 合适 的 alpha 值 是 很 有 技巧 的 , 一 种 暴力 方法 是 选用 多 种 值 多 次 运行 ， 记录 系数 
变化 的 轨迹 ， 从 中 选择 让 权重 变化 不 至 过 大 的 alpha 值 。 我 们 采用 coeff path 函数 来 
绘制 出 系数 权重 的 图 形 。 

来 看 一 下 coeff path 函数 ， 它 先生 成 一 个 alpha 值 的 列表 。 























alpha range = np.linspace(10,100.2,300) 


本 例 中 ， 我 们 生成 介 于 10 到 100 之 间 均 匀 间 隔 的 300 个 数 ， 对 于 每 个 这 样 的 alpha 
值 进行 建 模 并 保存 其 系数 。 





for alpha in alpha range: 

model = Ridge (normalize-True,alpha-alpha) 
model .fit (x,y) 

coeffs.append (model.coef ) 


最 后 我 们 绘 出 对 应 不 同 alpha 值 的 系数 图 形 ， 如 图 7-14 所 示 。 








Coeff Weight path 


Coeff weights 
o 
o 
un 











—0.10 
—0.15 
20 40 60 80 100 120 
alpha value 
图 7-14 














如 你 所 见 ， 各 个 系数 在 alpha 值 为 100 的 地 方 趋 于 稳定 。 更 进一步 ， 你 可 以 将 范围 缩 
小 到 接近 100 的 地 方 来 找 出 理想 值 。 
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7.3.5 参考 资料 


“机 器 学 习 2” 中 7.2 节 “ 回 归 方 法 预测 实数 值 ”的 相关 内 容 。 
“数据 分 析 一 一 探索 与 争鸣 ”中 3.10 节 “ 缩 放 数据 ”的 相关 内 容 。 
“数据 分 析 一 一 探索 与 争鸣 ”中 3.11 节 “ 数 据 标准 化 ”的 相关 内 容 。 
“机 器 学 习 1” 中 6.2 节 “ 为 建 模 准 备 数据 ”的 相关 内 容 。 
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7.4 学 习 L1 缩减 回归 一 一 LASS0 


最 小 绝对 值 缩 减 和 选择 操作 (Least absolute shrinkage and selection operator, LASSO) 
是 另 一 种 在 回归 问题 中 常用 的 缩减 方法 。 它 和 岭 回归 相 比 ， 更 倾向 稀 玻 的 结果 。 如 果 一 个 
结果 的 大 多 数 系 数 被 缩减 为 0， 那 它 被 称 为 稀疏 的 。LASSO 的 大 多 数 系数 都 变 成 了 0， 对 
于 相关 联 的 变量 ， 只 选择 保留 其 中 的 一 个 ， 而 不 是 像 岭 回归 那样 给 这 些 变量 的 系数 分 配 相 
同 的 权重 。LASSO 的 这 种 特性 可 以 用 来 选择 变量 ， 本 节 将 介绍 如 何 用 它 进 行 变 量 选择 。 
来 看 一 下 LASSO 回归 的 代价 函数 ， 如 果 掌 握 了 前 面 两 节 的 知识 ， 你 会 很 快 发 现 其 中 
别 。 
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Eo NM 行 惩罚 ，alpha 值 仍 控制 惩罚 的 幅度 。 我 们 来 

了 解 为 什么 L1 缩减 倾向 于 稀 玻 的 结 
我 们 可 以 把 上 面 的 式 子 分 解 重 写成 两 个 部 分 ， 无 约束 的 和 有 约束 的 代价 函数 。 
最 小 化 的 部 分 如 下 。 

































































受到 的 约束 如 下 。 
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记 住 这 些 式 子 , 我 们 把 代价 函数 值 在 系数 空间 上 
的 图 像 绘制 出 来 ， 以 两 个 系数 wo 和 wi 为 例 ， 图 形 如 wi 
图 7-15 所 示 。 


蓝 色 的 线 代表 对 于 不 同 wo 和 wi 的 代价 函数 (无 
约束 ) 值 的 轮廓 ,绿色 区 域 代表 约束 的 形态 , 它 由 n 
控制 。 最 佳 值 就 是 当 wo 被 设置 为 0 时 两 个 区 域 相交 
的 地 方 。 我 们 描绘 了 一 个 二 维 空间 ， 在 wo 设 为 0 时 
成 为 稀 朴 的 结果 。 在 多 维 空 间 情 形 下 , 在 绿色 区 域 中 























Wo 





















































有 一 个 平行 四 边 形 ，LASSO 会 把 大 量 系数 缩减 为 0 [il 7-15 
ARTSSU MILES E RS 





7.4.1 ”准备 工作 


本 节 我 们 仍 使 用 Boston 数据 集 来 演示 LASSO， 它 有 13 个 属性 和 506 个 实例 。 目 标 变 
量 是 一 个 实数 值 以 及 数 以 千 记 房屋 的 中 位 价值 。 关 于 Boston 数据 集 的 更 多 信息 ， 请 参见 : 


https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.names o 

我 们 后 面 会 讨论 如 何 用 LASSO 进行 变量 选择 。 
7.4.2 操作 方法 

先 加 载 必需 的 库 ， 随 后 定义 第 1 个 函数 get_data()， 在 该 函数 中 ， 我 们 读 取 Boston 
数据 集 ， 并 将 其 返回 给 预测 器 x 和 反应 变量 y. 

# 加 载 库 


from sklearn.datasets import load boston 
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from sklearn.cross validation import train test split 
from sklearn.linear model import Lasso, LinearRegression 
from sklearn.metrics import mean squared error 

import matplotlib.pyplot as plt 

from sklearn.preprocessing import PolynomialFeatures 
import numpy as np 


def get data(): 


mn 





Return boston dataset 
as x - predictor and 
y - response variable 
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data = load boston() 
x = data['data'] 
y = data['target'] 


return x,y 





























随后 的 bulid model 函数 针对 给 定 的 数据 构建 LASSO 模型 。 接 着 我 们 用 两 个 函数 
view model 和 model worth 来 评估 生成 的 模型 。 











def build models (x,y): 


Build a Lasso regression model 


# Alpha 值 在 0 到 0.5 间 均匀 间隔 

alpha range = np.linspace(0,0.5,200) 

model = Lasso(normalize-True) 

coeffiecients = [] 

+ 对 于 每 个 alpha 值 适 配 模型 

for alpha in alpha range : 
model.set params (alpha-alpha) 
model.fit (x,y) 
# 追踪 系数 用 来 绘 区 
coeffiecients.append (model.coef ) 

# 绘制 系数 权重 变化 和 对 应 的 alpha fü 

# 绘制 模型 的 RMSE 和 对 应 的 alpha fi 

coeff path(alpha range,coeffiecients) 

# 查看 系数 值 


#view model (model) 














def view model (model): 


Look at model coeffiecients 


print "An Model coeffiecients" 








print " Mn" 
for i,coef in enumerate (model.coef ): 
print "NtCoefficient $d £0.3f"$(i-*1,coef) 





print "WMnNtIntercept $0.3f"$(model.intercept ) 


def model worth(true y,predicted y): 





Evaluate the model 
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wr 


print "Nt Mean squared error = $0.2f\n"%$ (mean squared \ 
error(true y,predicted y)) 














我 们 要 编写 两 个 函数 coeff path 和 get coeff 用 来 检查 模型 的 系数 ， 前 者 由 
build model 函数 调用 来 绘制 不 同 alpha 值 情 况 下 系数 的 权重 ， 后 者 由 主 函 数 调用 。 





























def coeff path(alpha range,coeffiecients): 


LEUR 


Plot residuals 


Wm 


plt.close('all') 
plt.cla() 
plt.figure(1) 


( 
plt.xlabel("Alpha Values") 

plt.ylabel("Coeffiecient Weight") 

plt.title("Coeffiecient weights for different alpha values") 


plt.plot(alpha range,coeffiecients) 











plt.axis('tight') 











plt.show() 


def get coeff(x,y,alpha): 
model = Lasso(normalize-True,alpha-alpha) 
model.fit(x,y) 
coefs = model.coef. 





indices = [i for i,coef in enumerate(coefs) if abs(coef) > 0.0] 
return indices 


























最 后 编写 main 函数， 用 它 调 用 之 前 的 所 有 函数 。 








Pun 








if name == " main ": 





x,y = get data() 
# 用 不 同 的 alpha 值 多 次 建 模 ， 并 绘 
build models (x,y) 





| 








形 





print "XnPredicting using all the variables" 





full model = LinearRegression (normalize-True) 
full model.fit(x,y) 

predicted y = full model.predict (x) 

model worth(y,predicted y) 
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print "XnModels at different alpha values\n" 
alpa values = [0.22,0.08,0.01] 
for alpha in alpa values: 


indices = get coeff(x,y,alpha) 

print "Nt alpah -$0.2f Number of variables selected = %d\ 
"$ (alpha,len(indices)) 

print "Nt attributes include ", indices 


x new = x[:,indices] 





model = LinearRegression(normalize-True) 
model.fit(x new,y) 

predicted y = model.predict (x new) 

model worth(y,predicted y) 


7.4.3 ”工作 原理 


我 们 从 主 模块 开始 ， 先 用 get data 函数 加 载 预测 器 x 和 反应 变量 y， 这 个 函数 调用 
了 scikit-learn 里 的 load_boston () 函数 ， 它 将 Boston 房屋 价格 数据 集 转换 为 NumPy 
数组 。 


接 下 来 调用 build models 方法 ， 以 此 使 用 不 同 的 alpha 值 构建 多 个 模型 。 









































alpha range = np.linspace(0,0.5,200) 
model - Lasso(normalize-True) 
coeffiecients - [] 

# 对 于 每 个 alpha 值 适 配 模型 

for alpha in alpha range : 





model.set params (alpha=alpha) 
model.fit (x,y) 
# 追踪 系数 用 来 绘图 


coeffiecients.append (model.coef ) 














如 你 所 见 ， 在 for 循环 中 ， 我 们 将 不 同 alpha 值 情 况 下 的 系数 值 保 存 到 一 个 列表 中 。 
调用 coeff path 函数 绘 出 不 同 alpha 值 情况 下 的 系数 值 。 

















— 

















plt.close('all') 
plt.cla() 


plt.figure(1) 
plt.xlabel("Alpha Values") 
plt.ylabel("Coeffiecient Weight") 
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plt.title("Coeffiecient weights for different alpha values") 
plt.plot(alpha range,coeffiecients) 

plt.axis('tight') 

plt.show() 





$ 
p 
i 


02 0.3 
Alpha Values 








图 7-16 





不 同 颜色 的 线 表示 不 同 的 系数 值 ， 如 你 所 见 ， 当 alpha 值 增长 时 ， 系 数 的 权重 值 总 体 
趋向 于 0。 从 这 张 图 里 ， 我 们 就 能 选择 合适 的 alpha fü. 


作为 参考 ， 我 们 适 配 一 个 简单 的 线性 回归 模型 。 


muy 











print "MnPredicting using all the variables" 
full model = LinearRegression(normalize-True) 
full model.fit(x,y) 

predicted y = full model.predict (x) 





model worth(y,predicted y) 





在 构建 新 的 模型 之 前 ， 我 们 看 看 这 个 模型 的 均 方 误差 ， 结 果 如 图 7-17 所 示 。 


Predicting using all the variables 
Mean squared error = 21.90 


E] 7-17 
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接着 基于 LASSO 来 选择 系数 。 





print "XnModels at different alpha values\n" 
alpa values = [0.22,0.08,0.01] 

for alpha in alpa values: 

indices = get coeff(x,y,alpha) 








get coeff 方法 ， 它 采用 给 定 的 alpha 值 适 配 LASSO 模型 ， 并 返 


model = Lasso(normalize-True,alpha-alpha) 
model .fit (x,y) 
coefs = model.coef 








基于 之 前 的 图 7-16， 我 们 选择 0.22. 0.08 和 0.01 作为 alpha 值 。 在 循环 中 调用 





回 非 零 系数 的 索引 号 。 





indices = [i for i,coef in enumerate(coefs) if abs(coef) > 0.0] 








回归 模型 的 for 循环 语句 。 


print "Nt alpah -$0.2f Number of variables selected = 
"5$ (alpha,len(indices)) 

print "Nt attributes include ", indices 

x new = x[:,indices] 

model = LinearRegression(normalize-True) 





model.fit(x new, y) 
predicted y = model.predict(x new) 








model worth(y,predicted y) 

















基本 上 ， 我 们 只 选择 那些 非 零 系 数值 的 特征 选项 ， 回 头 看 下 适 配 采 用 缩减 系数 的 线性 


m 





$dN 





如 果 采 用 了 缩减 的 集合 属性 进行 计算 ， 我 们 想 知 道 的 是 模型 效果 怎样 ， 这 里 和 最 初 采 

















用 所 有 数据 集 的 建 模 结 果 做 个 对 比 ， 如 图 7-18 所 示 。 


Models at different alpha values 








alpha -0.22 Number of variables selected - 2 
attributes include [5, 12] 
Mean squared error = 30.51 


alpha 20.08 Number of variables selected = 3 
attributes include [5, 10, 12] 
Mean squared error = 27.13 


alpha -0.01 Number of variables selected - 9 
attributes include [9, 1, 3, 4, 5, 7, 10, 11, 12] 
Mean squared error - 22.89 











图 7-18 








请 看 alpha 值 为 0.22 的 第 1 次 循环 结果 ， 只 有 两 个 系数 是 非 零 ， 分 别 为 5 和 12， 均 





























方 误差 为 30.51， 只 比 采 用 所 有 变量 进行 建 模 的 结果 多 了 9。 








类 似 地 ，alpha 值 为 0.08 时 ， 有 3 个 系数 是 非 零 ， 均 方 误差 有 所 改善 。 
值 为 0.01 时 ，13 个 属性 中 的 9 个 为 非 零 ， 均 方 误差 与 采用 所 有 变量 进行 建 模 的 结果 相差 








不 大 。 


如 你 所 见 ， 我 们 没有 采用 所 有 的 属性 来 适 配 模型 ， 而 是 可 以 使 
性 的 子 集 。 这 样 ， 我 们 就 了 解 到 了 LASSO 如 何 进行 变量 选择 。 








7144 ”更 多 内 容 
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因为 只 保留 最 重要 的 变量 ，LASSO 避免 了 过 拟 合 。 不 过 ,， 义 
别 好 ， 这 是 LASSO 引起 的 预测 能 力 损失 。 
之 前 提 到 过 ， 对 于 变量 间 相 互 关联 的 情形 ，LASSO 只 会 选择 其 中 的 一 个 ， 岭 回 




















用 











LASSO 自动 选择 属 





最 后 ， alpha 








[你 所 见 ， 均 方 误差 不 是 特 


归 则 给 


每 个 相应 变量 分 配 相同 的 权重 。 因 此 ， 岭 回归 比 LASSO 的 预测 能 力 要 高 一 些 。 不 过 ,LASSO 
能 完成 动态 选择 ， 岭 回归 则 没有 这 个 能 力 。 














请 参看 Trevor Hastie 等 人 所 著 的 《Statistical learning 
GS with sparsity: The Lasso and generalization), 1% -54&4X T 
LASSO 和 岭 回 归 的 更 多 信息 。 


7.4.5 参考 资料 
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“数据 分 析 一 一 探索 与 争鸣 ”中 3.10 节 “ 缩 放 数 和 
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“机 器 学 习 1”， 
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“机 器 学 习 2”， 




















7.5 L1 和 L2 缩减 交叉 验证 和 迭代 

















中 ”的 相关 内 容 。 
“数据 分 析 一 一 探索 与 争鸣 ”中 3.11 节 “ 数 据 标准 化 ”的 相关 内 容 。 
6.2 节 “ 为 建 模 准备 数据 ”的 相关 内 容 。 

7.3 节 “ 学 习 工 2 缩减 回归 一 一 岭 回归 ”的 相关 内 容 。 


在 前 面 的 章节 里 ， 我 们 看 到 了 一 些 将 数据 集 划 分 为 训练 集 和 测试 集 的 方法 ， 在 其 
的 小 节 里 ， 又 介绍 了 从 测试 集中 划分 出 一 个 dev 集 ， 其 思路 是 保持 测试 集 不 进入 建 模 
环 过程 。 然 后 当 需 要 持续 提高 模型 效果 时 ， 我 们 用 dev 集 在 每 次 迭代 中 测试 模型 的 精度 。 
这 是 一 个 不 错 的 方法 ， 但 是 如 果 没 有 一 个 很 大 的 数据 集 的 话 ， 这 个 方法 很 难 实施 。 我 












































望 能 提供 尽 可 能 多 的 数据 



























































j 来 训练 模型 ， 并 且 仍 需要 保留 一 些 数据 





























但 是 在 现实 场景 里 ， 拥 有 大 量 数据 的 情况 是 很 少 的 。 




































































来 评估 和 最 终 测 ; 














门 希 
式 。 
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本 节 将 介绍 一 种 称 为 交叉 验证 的 方法 来 帮助 我 们 实现 上 述 目标 ， 











折 交 叉 验证 。 训练 集 被 划分 为 k 份 ， 模 型 在 k-1 份 数据 上 进行 训练 ， 剩 下 





























这 样 就 不 i 要 单独 划分 dev 集 。 
































这 种 方法 一 般 也 叫 k 














的 用 来 进行 测试 ， 





本 节 将 介绍 一 些 scikit-learn 库 所 提供 的 能 高 效 执行 k 折 交 又 验 证 的 迭代 器 。 掌 握 
































了 交叉 验证 的 知识 ， 我 们 将 进一步 了 解 如 何在 缩减 方法 中 调用 交叉 验证 











7.5.1 准备 工作 





























我 们 采用 iris 数据 集 来 演示 多 种 交叉 验证 迭代 器 的 概念 ， 然 后 再 























集 来 演示 交叉 验证 在 缩减 方法 中 怎样 成 功 地 找到 理想 的 alpha 值 。 
7.5.2 ”操作 方法 


来 看 看 如 何 使 用 交叉 验证 迭代 器 。 























from sklearn.datasets import load iris 





来 选择 alpha 值 。 

















[ad 














II 


可 Boston 房屋 数 志 








from sklearn.cross validation import KFold,StratifiedKFold 


def get data(): 
data = load iris() 
x — data['data'] 
y = data['target'] 


return x,y 


def class distribution(y): 
class dist = () 
total = 0 
for entry in y: 
try: 
class dist[entry]-*-1 
except KeyError: 
class dist[entry]-1 
total+=1 


for k,v in class dist.items(): 


print "Ntclass $d percentage -$0.2f"$(k,v/( 


if name == " main ^": 





x,y = get data() 


# K 份 


1.0*total)) 


75 LI 和 L2 缩减 交叉 验证 迭代 285 


# 3 份 
kfolds = KFold(n-y.shape[0],n folds=3) 
fold count =1 
print 
for train,test in kfolds: 
print "Fold $d x train shape" (fold count),x[train].shape,N 
" x test shape",x[test].shape 
fold count-t-1 
print 
# 分 成 份 
Skfolds = StratifiedKFold(y,n folds-3) 
fold count =1 
for train,test in skfolds: 
print "MnFold $d x train shape"$(fold count),x[train].shape, 
" x test shape",x[test].shape 
y train = y[train] 
y test = y[test] 
print "Train Class Distribution" 


class distribution(y train) 








print "Test Class Distribution" 
class distribution(y test) 





fold count+=1 


print 

















主 函 数 中 ， 我 们 调用 了 get data 函数 来 加 载 iris 数据 集 。 接 着 分 别 演示 一 个 简单 的 
k 份 和 分 层 K 份 。 























掌握 了 k 折 交 叉 验 证 的 知识 ， 我 们 写 一 个 应 用 了 这 个 新 知识 的 增强 岭 回 归 。 
# 加 载 库 
from sklearn.datasets import load boston 


from sklearn.cross validation import KFold,train test split 


from sklearn.grid search import GridSearchCV 


from 


S 
S 
from sklearn.linear model import Ridge 
S 
Sklearn.metrics import mean squared error 
S 


from sklearn.preprocessing import PolynomialFeatures 


import numpy as np 





def get data(): 


LEUR 


Return boston dataset 
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as x - predictor and 
y - response variable 
"nn 

data = load boston() 
x = data['data'] 

y = data['target'] 
return x,y 





先 加 载 必 需 的 库 ， 随 后 定义 第 1 个 函数 get data () ， 在 该 函数 中 ， 我 们 读 取 Boston 
数据 集 ， 并 将 其 返回 给 预测 器 x 和 反应 变量 y. 


随后 的 bulid_moqel 函数 针对 给 定 的 数据 构建 岭 回 归 模 型 ， 这 里 我 们 会 用 到 K 折 交 
叉 验 证 。 





H 





























H 











i 












































接着 我 们 用 两 个 函数 view model 和 model worth 来 评估 生成 的 模型 




















最 后 我 们 编写 display param results 函数 来 查看 每 份 中 的 模型 错误 。 
def build model (x,y): 


"m 


Build a Ridge regression model 


UEURI 





kfold KFold(y.shape[0],5) 
model = Ridge (normalize-True) 


alpha_range = np.linspace(0.0015,0.0017,30) 

grid param = {"alpha":alpha_range} 

grid = GridSearchCV (estimator=model, param grid=grid \ 
param,cv-kfold,scoring-'mean squared error') 

grid.fit(x,y) 

display param results (grid.grid scores ) 

print grid.best params 

# 追踪 均 方 残 差 的 计量 用 来 绘制 图 形 


return grid.best estimator. 

















def view model (model): 


mn 





Look at model coeffiecients 


LEUR 





#print "Wn Estimated Alpha = $0.3f"$model.alpha 
print "Xn Model coeffiecients" 
print " Mn" 








for i,coef in enumerate (model.coef ): 





print "NtCoefficient $d %0.3f"%(i+1,coef) 


print "AnNtIntercept $0.3f"$(model.intercept ) 


def model worth(true y,predicted y): 


LEUR 


Evaluate the model 


LEUR 





print "NtMean squared error = £$0.2f"$ (mean squared a\ 
error(true y,predicted y)) 
return mean squared error(true y,predicted y) 


def display param results (param results): 
fold = 1 
for param result in param results: 
print "Fold %d Mean squared error $0.2f"$(fold,abs (param ^ 
result[1])),param result[0] 
fold+=1 



































最 后 编写 main 函数 ， 用 它 调用 之 前 的 所 有 函数 。 








起 局 二 条 


if name == main_": 





x,y = get data() 


# 将 数据 集 划 分 为 训练 集 和 测试 集 
x train,x test,y train,y test = train test split(x,y,test size =\ 
0.3,random state-9) 


# 准备 一 些 多 项 式 特 征 


poly features = PolynomialFeatures (interaction only-True) 





poly features.fit(x train) 
x train poly = poly features.transform(x train) 


x test poly = poly features.transform(x test) 


choosen model - build model(x train poly,y train) 





predicted y = choosen model.predict(x train poly) 
model worth(y train,predicted y) 


view model (choosen model) 


predicted y = choosen model.predict(x test poly) 
model worth(y test,predicted y) 
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7.5.3 ”工作 原理 


从 主 函数 开始 ， 先 启用 KFolad 类 ,这 个 迭代 器 类 会 根据 数据 集 里 实例 的 数量 和 所 需要 
的 份 数 进行 实例 化 。 





























kfolds = KFold(n-y.shape[0],n folds-3) 


现在 我 们 可 以 循环 访问 各 份 ， 代 码 如 下 。 





fold count -1 

print 

for train,test in kfolds: 
print "Fold $d x train shape"% (fold count),x[train].shape,N 
" x test shape",x[test].shape 
fold count+=1 


print 语句 输出 的 结果 如 图 7-19 所 示 。 





Fold 1 x train shape (100, 4) x test shape (50, 4) 
Fold 1 x train shape (100, 4) x test shape (50, 4) 
Fold 1 x train shape (100, 4) x test shape (50, 4) 











图 7-19 


























我 们 可 以 看 到 数据 被 分 为 3 个 部 分 , 每 个 部 分 有 100 个 实例 用 来 训练 , 50 个 用 来 测试 。 


接 下 来 是 stratifiedqKEold， 回 忆 一 下 之 前 章节 里 在 训练 集 和 测试 集 上 使 得 类 别 均 
色 分 布 的 相关 讨论 ，StratifiedKFolg 在 3 份 数据 上 实现 了 均匀 的 类 别 分 布 。 


它 的 调用 方法 如 下 。 









































Skfolds = StratifiedKFold(y,n folds-3) 








因为 需要 知道 数据 集 类 别 标签 的 分 布 情况 ， 迭 代 器 对 象 将 反应 变量 y 也 作为 它 的 参数 
之 一 ， 另 外 的 参数 则 是 所 需 的 份 数 。 

我 们 采用 class_distribution KAOH 3 份 训 练 集 和 测试 集 的 形状 打印 输出 ,连同 
它们 的 类 别 分 布 。 









































fold count =1 
for train,test in skfolds: 


print "MnFold $d x train shape"$(fold count),x[train].shape,' 


" x test shape",x[test].shape 


y train = y[train] 


y test = y[test] 


print "Train Class Distribution" 


class distribution(y train) 





print "Test Class Distribution" 


class distribution(y test) 





fold count-*-1 


如 图 7-20 所 示 ， 类 的 分 布 是 均匀 的 。 


Fold 1 x train shape (99, 4) 

Train Class Distribution 
class 0 percentage 
class 1 percentage 
class 2 percentage 

Test Class Distribution 
class © percentage 
class 1 percentage 
class 2 percentage 


Fold 2 x train shape (99, 4) 

Train Class Distribution 
class 0 percentage 
class 1 percentage 
class 2 percentage 

Test Class Distribution 
class 6 percentage 
class 1 percentage 
class 2 percentage 


Fold 3 x train shape (102, 4) 

Train Class Distribution 
class @ percentage 
class 1 percentage 
class 2 percentage 

Test Class Distribution 
class 8 percentage 
class 1 percentage 
class 2 percentage 











图 7-20 
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x test shape (51, 4) 


=ð. 
=. 
=ð. 


=ð. 
=ð. 
-0 . 


x test shape (51, 4) 


20.33 
0.33 
20.33 


20.33 
20.33 
8.33 


x test shape (48, 4) 


20.33 
20.33 
20.33 


20.33 
290.33 
20.33 


现在 假定 构建 了 一 个 5 份 的 数据 集 ， 适 配 5 个 不 同 的 模型 ， 得 到 5 个 不 同 的 精确 度 评 





分 ， 你 可 以 取 这 些 记 


分 的 平均 值 来 

















估 模 型 产生 的 效果 。 如 果 对 结果 不 满意 ， 你 可 以 继续 
采用 不 同系 列 的 参数 开始 建 模 ， 仍 运行 在 5 份 的 数据 上 ， 然 后 再 看 看 精确 度 的 评分 。 这 村 


TEE 





你 就 可 以 只 用 训练 集 数据 找到 合适 的 参数 来 持续 地 提高 模型 效果 。 
了 解 了 以 上 知识 ， 我 们 再 重新 审视 下 岭 回归 问题 。 
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从 主 模块 开始 ， 先 用 





























: 








get data 函数 加 载 预测 器 x 和 反应 变量 y， 这 个 函数 调用 了 











Scikit-learn Hif] load boston () 函数 ， 它 将 Boston 房屋 价格 数据 集 转换 为 NumPy 









































然后 用 scikit-learn 库 里 的 train test split 函数 把 数据 划分 为 训练 集 和 测 











试 集 ， 我 们 保留 30% 的 数据 作为 测试 集 。 














接着 再 构建 多 项 式 特 征 。 




















poly features = PolynomialFeatures (interaction only=True) 


poly features.fit(x train) 


如 你 所 见 ，interaction only WREN True, 此 时 , 对 于 xl 和 x2, 只 有 xi*x2 
属性 被 创建 ， 假 定 维度 是 2，x1 和 x2 的 平方 并 没有 被 创建 。 默 认 维度 也 是 2。 















































x train poly = poly features.transform(x train) 








x test poly = poly features.transform(x test) 



























































然后 创建 岭 








归 对 象 。 





使 用 transform 函数 ， 可 以 将 训练 集 和 测试 集 都 转换 为 包含 多 项 式 特 征 。 接 下 来 调 
]build model 函数 ， 首 先 我 们 会 注意 到 这 个 函数 里 的 k 份 声明 ， 此 时 将 交叉 验证 的 知 
识 应 用 进来 ， 创 建 一 个 5 份 的 数据 集 。 

















E 





kfold = KFold(y.shape[0],5) 


model = Ridge (normalize-True) 





现在 我 们 了 解 了 如 何 使 


















































EJH k 折 交 叉 验 证 来 找 出 岭 回归 的 理想 alpha 值 , 下 一 行 代码 从 





GridSearchCV 里 创建 对 象 。 


grid = GridSearchCV (estimator-model,param grid-grid \ 


param,cv-kfold,scoring-'mean squared error!) 


GridSearchCV 是 scikit-learn 提供 的 一 个 便捷 的 函数 ， 帮 助 我 们 采用 一 个 范围 
内 的 参数 对 模型 进行 训练 。 本 例 中 ， 要 找到 理想 的 alpha 值 ， 就 要 用 不 同 的 alpha 值 训 









































练 模型 。 我 们 来 看 一 下 传递 给 Gridsearchcyv 的 参数 。 
estimator， 这 是 指定 用 给 定 参数 和 数据 来 运行 的 模型 的 类 型 。 本 例 中 ， 我 们 要 运行 的 
是 岭 回 归 ， 因 此 需要 创建 一 个 岭 回 归 对 象 并 传递 给 GridSearchCv. 
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param-grid: 这 是 一 个 参数 字典 ， 用 来 评估 模型 效果 。 我 们 来 详细 了 解 一 下 ， 首 先 声 





明 建 模 所 采用 的 alpha 的 范围 。 
































alpha range = np.linspace(0.0015,0.0017,30) 











上 面 语句 给 出 了 一 个 NumPy 数组 ， 其 30 个 元 素 在 0.0015 到 0.0017 之 间 均 匀 间 隔 ，3 























这 些 值 尝试 逐个 建 模 。 我 们 会 创建 一 





















































型 的 指标 。 








里 的 alpha 值 作 为 键 构 建 条 目 。 


个 字典 对 象 gird_param， 采 用 生成 的 NumPy 


grid param = {"alpha" :alpha range] 


将 这 个 字典 作为 参数 传递 给 GridqsearchcV， 注 意 其 条 目 。 


param grid-grid param 











cv: 这 个 参数 定义 了 感 兴趣 的 交叉 验证 类 型 ， 我 们 要 传递 先前 创建 的 k £3 C5 43D 35 
代 器 作为 cv 参数 。 


最 后 还 需要 定义 一 个 评分 函数 ， 本 例 





























中 ， 我 们 关注 的 是 平方 误差 ， 也 就 是 用 来 评估 模 














就 这 样 ， 内 置 的 GridSearchcv 采用 每 个 参数 值 进行 5 次 建 模 ， 并 返回 用 剩余 的 那 
份 数据 测试 得 到 的 平均 分 。 本 例 中 有 5 份 
均值 将 被 返回 给 我 们 。 
































解释 之 后 ， 我 们 就 可 以 开始 适 配 模型 
最 后 来 看 看 不 同 参 数 配置 下 的 输出 结 























来 显示 交叉 不 同 数据 的 均 方 误差 平均 值 。 
如 图 7-21 所 示 ， 输 出 的 每 一 行 显示 了 参数 alpha 的 值 和 从 测试 份 数据 上 得 到 的 均 方 


误差 























测试 数据 ， 因 此 ， 跨 越 这 5 份 测试 数据 的 得 分 平 








了 ， 也 即 局 动 网 格 状 的 搜索 行动 。 


果 ， 我 们 采用 display param results K% 























均值 。 我 们 会 发 现 ， 越 往 0.0016 区 域 迈 进 ， 均 方 误差 越 升 高 。 因 此 ， 我 们 决定 在 0.0015 














处 停止 ， 并 检索 网 格 对 象 来 获取 最 好 的 参数 和 评估 量 。 








print grid.best params 
return grid.best estimator 








这 些 和 第 1 次 测试 使 用 的 alpha fff 














合并 不 一 致 ， 我 们 最 初 使 用 的 alpha 值 如 下 。 





alpha range = np.linspace(0.01,1.0,30) 
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图 7-21 


采用 这 个 集合 时 的 输出 结果 如 图 7-22 所 示 。 
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图 7-22 
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当 alpha 值 超过 0.01 时 ， CEPIT SAT 


alpha range = np.linspace(0.001,0.1,30) 


此 时 的 输出 结果 如 图 7-23 所 示 。 
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通过 这 种 迭代 的 办 法 ， 我 们 得 知 合适 的 范围 在 0.0015 到 0.0017 之 间 。 
我 们 就 从 网 格 状 搜索 中 得 到 了 最 好 的 记 
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图 7-23 





因此 ， 我 们 


FE 估 者 ， 并 将 它 应 月 


7.5 LI1 和 12 缩减 交叉 验证 迭代 


给 出 一 个 新 的 范围 。 
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choosen model = build model(x train poly,y train) 








predicted y = choosen model.predict(x train poly) 


model worth(y train,predicted y) 


model worth 函数 打印 出 在 训练 集 上 的 均 方 误差 值 , 如 


图 7-24 所 示 。 


来 看 一 下 系数 的 权重 ， 如 图 7-25 所 示 。 
我 们 没有 显示 全 部 内 容 ， 不 过 你 在 运行 代码 时 可 以 看 到 全 部 的 值 。 
最 后 把 模型 应 用 到 测试 集 数 据 上 ， 结 果 如 图 7-26 所 示 。 





图 








7-24 
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日 到 训练 集合 测试 集 数 据 上 。 


Mean squared error = 7.57 
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Model coeffiecients 
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Coefficient 
Coefficient j Mean squared error = 11.72 


图 7-25 | 7-26 




















这 样 ， 我 们 采用 交叉 验证 和 网 格 状 搜索 成 功 地 为 岭 回归 找到 了 合适 的 alpha fü. MJ 
得 到 的 模型 的 均 方 误差 比 7.3 节 “ 学 习 L2 缩减 回归 一 一 岭 回 归 ” 里 的 要 好 。 


7.5.4 WW 


在 scikit-learn 里 还 有 其 他 的 交叉 验证 运 代 器 ， 本 例 中 最 受 瞩 目的 是 “ 留 一 法 迭 
代 器 ”， 你 可 以 从 以 下 链接 了 解 它 的 更 多 信息 ， 请 参见 : http://scikit-learn.org/stable/ 
modules/cross_validation.html#leave-one-out-loo。 

在 这 种 方法 里 ， 给 定 份 数 ， 它 留 下 一 条 记录 作为 测试 集 ， 其 他 的 都 作为 训练 集 。 例 如 ， 
如 果 数 据 有 100 个 实例 , 我 们 需要 5 份 , 则 在 每 一 份 里 (多 次 建 模 ) 有 99 个 实例 用 来 训练 ， 
1 个 用 来 验证 。 

之 前 用 到 的 网 格 状 搜索 方法 里 ， 如 果 我 们 没有 提供 自 定义 的 迭代 器 给 交叉 验证 (cv) 
参数 ， 它 默认 使 用 留 一 法 交叉 验证 。 
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grid = GridSearchCV (estimator-model,param grid-grid \ 
param,cv-None,scoring-'mean squared error') 
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7.5.5 ”参考 资料 
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“机 器 学 习 2” 中 7.378 "5521 L2 缩减 回归 一 一 怜 回归 ”的 相关 内 容 。 
“机 器 学 习 2” 中 7.4 节 “ 学 习 工 1 缩减 回归 一 LASSO” 的 相关 内 容 。 
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第 8 章 
集成 方法 


在 这 一 章 中 ， 我 们 将 探讨 以 下 主题 。 
。 理解 集成 一 一 挂 伐 法 








iH 

















。 理解 集成 一 一 提升 法 
。 理解 集成 一 一 梯度 提升 
8.1 简介 

















本 章 主 要 内 容 将 覆盖 集成 方法 。 现 实生 活 中 ， 当 面 对 着 不 确定 情况 ， 却 要 做 出 艰难 决 
定时 ， 我 们 通常 会 听取 多 个 朋友 的 意见 ， 然 后 基于 朋友 们 的 集体 智 意 来 做 出 决定 ， 机 器 学 
习 里 的 集成 方法 就 采用 了 这 种 相似 的 概念 。 上 一 章 里 ， 我 们 在 数据 集 上 所 建 的 模型 只 有 一 
个 ， 并 用 它 对 未 知 的 测试 数据 进行 预测 。 如 果 在 数据 集 上 构建 许多 个 模型 ， 并 从 这 些 各 自 
独立 的 模型 的 预测 值 中 找 出 最 终 的 预测 值 ， 这 样 的 结果 会 如 何 ? 这 就 是 集成 方法 背后 的 思 
路 。 对 给 定 的 问题 采用 集成 方法 ， 生 成 大 量 模 型 ， 然 后 用 它们 在 未 知 数 据 上 找 出 最 终 的 预 
测 值 。 对 于 回归 问题 ， 最 后 的 输出 结果 可 能 是 各 个 模型 产生 的 预测 值 的 平均 值 ， 对 于 分 类 
的 上 下 文 问题 ， 可 以 用 主体 投票 来 确定 最 后 的 分 类 输出 。 
基本 的 思路 是 拥有 大 量 的 模型 ， 每 一 个 都 在 训练 集 上 产生 差别 不 大 的 结果 ， 一 些 模型 
相 较 其 他 的 在 某 些 方面 的 数据 效果 会 更 好 一 些 。 可 以 相信 ， 最 后 从 多 个 模型 得 到 的 输出 结 
果 肯 定 比 仅 从 一 个 模型 获得 的 结果 要 好 。 
之 前 提 到 ， 集 成 方法 的 思路 是 将 多 个 模型 集成 起 来 ， 这 些 模型 可 以 是 相同 类 型 ， 也 可 
以 是 不 同类 型 。 例 如 ， 神 经 网 络 模型 和 贝 叶 斯 模型 可 以 集成 起 来 。 本 章 中 只 讨论 集成 同类 
的 模型 。 采 用 诸如 挂 袋 法 和 提升 法 之 类 的 技术 ， 将 同类 模型 集成 起 来 在 数据 科学 社区 中 的 
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十 分 广泛 。 
FRE MEHER 
成 起 来 获得 最 终 的 预测 值 。 挂 
] 的 思路 是 减少 对 数据 产生 过 拟 合 。 前 面 规定 了 每 个 模型 的 差别 不 能 太 大 ， 在 每 个 模型 训 
EBRR AR 








82 理解 集成 一 - 挂 袋 法 

















法 ， 是 一 种 简练 优雅 的 方法 ， 它 产生 大 量 的 模型 并 将 它 


袋 法 集成 中 的 每 一 个 模型 只 使 用 训练 集 的 一 部 分 
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们 的 
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, 











就 产生 了 一 定 差异 。 还 有 一 种 方法 是 对 属性 进行 











后 











采样 
it. 




















所 有 的 属性 ， 不 同 的 模型 采 























框架 


lj 





JI, EE REITH 





无 效 。 











的 错误 


SE 


提升 法 也 是 一 种 旨 
| 练 新 的 模型 ， 每 次 训练 得 到 的 模型 被 赋予 一 个 权 习 











成 技术 ， 它 产生 一 个 逐步 复杂 的 模型 序列 。 











j 不 同 的 属性 集合 。 挂 袋 法 可 以 很 容易 实现 并 行 
不 同 的 训练 集 样本 。 挂 袋 法 对 如 线性 回归 之 类 





当 
的 线 
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E TAWUS 4E T B — 
这 个 权重 依据 模型 在 
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E33 














数据 的 效果 而 定 。 最 终 的 预测 值 产 4 
啊 力 的 判 据 。 


提升 法 不 像 挂 袋 法 那 术 





Ei 
m2 
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的 分 类 器 产 4 





计 思 路 是 这 村 


善 效果 。 一 般 来 说 ， 提 升 ; 
支 节 点 和 两 个 叶 节 点 的 决策 树 ， 就 被 内 置 在 集成 ， 
人 脸 检 测算 法 ， 一 些 较 弱 的 








和 的: 后续 的 模型 获得 前 


的 错误 对 

















时， 这些 权重 值 就 是 每 个 特定 模型 对 于 最 终 输 吕 
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Bj 














不 采 
并 行 
性 预 


个 模 
给 定 
结果 























天 然 地 适合 并 行 化 ， 建 模 过 程 是 按 顺 序 进 行 的 ， 因 而 无 法 
F 分 类 过 程 来 说 ， 都 是 一 些 难以 处 理 的 实例 。 框 


置 预测 器 产生 的 错误 分 类 或 者 错误 预测 ， 然 后 
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了 这 个 案例 


object dete 





的 更 多 信息 ， 




















些 很 弱 的 分 类 器 ， 例 如 单 层 决策 树 一 一 只 有 一 
。 一 个 著名 的 成 功 案例 就 是 Viola 
( 单 层 决策 树 》 被 用 来 寻找 良好 的 特征 。 以 下 链接 


EH 





、 
D rf H3 


、 
E m 























分 类 器 





请 参见 : https//en.wikipedia.org/wiki/Viola96E296809693Jones 


ction framework. 



































并 行 
架设 
取 改 


个 分 





Jone 
介绍 




















本 章 详细 介绍 了 挂 袋 法 和 提升 法 ， 最 后 一 节 会 扩展 到 一 种 特殊 的 提升 法 一 一 梯度 提升 
法 。 我 们 会 讨论 回归 和 分 类 两 种 问题 ， 看 看 如 何 用 集成 方法 解决 它们 。 

















8.2 “理解 集成 一 一 挂 袋 ; 





集成 方法 属于 基于 训 
模型 集成 起 来 做 
挂 袋 法 也 叫 引导 聚集 ， 
够 让 潜在 的 数据 引入 变化 ， 


一 和 





FH 45 
本 用 
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我 们 使 月 


H 





F 委 的 学 习 方 法 一 族 ， 不 是 
选择 。 挂 袋 法 是 其 中 著名 的 一 种 ， 并 

















昌 单 个 模型 来 决定 分 类 或 回归 ， 而 
到 了 广泛 应 用 。 

它 只 有 在 潜在 的 模型 能 产生 不 同 的 变化 时 才 有 效 ， 也 就 是 

巴 就 能 产生 有 着 轻微 变化 的 多 种 模型 。 





得 








5j 






































=] 








HERAA 























着 上 产生 模型 的 变化 ， 所 请 自 举 ， 就 是 在 给 定 的 数据 集 上 随 





是 由 


说 ， 


机 采 
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样 一 定数 量 的 实例 , 无论 是 否 带 有 替换 。 在 提 























E 袋 法 里 ， 我 们 用 自 举 产生 m 个 不 同 的 数据 集 ， 





























最 终 的 预测 值 。 





























然后 用 它们 中 的 每 一 个 构建 一 个 模型 。 对 于 回归 问题 ， 最 后 用 所 有 模型 产生 的 输出 来 产生 


假定 数据 自 举 m 次 , 这 样 就 有 m 个 模型 , 也 就 有 m 个 y, 最 后 的 预测 值 计算 公式 如 下 。 














二 < 
了 oo 三 一 (x) 
final (x) m 


对 于 分 类 问题 ， 最 后 的 输出 结果 取决 于 投票 。 假 设 有 一 个 二 元 分 类 问题 ， 分 类 标 
{+1， 一 1}， 集 成 方法 里 有 100 个 模型 ， 如 果 有 50 个 以 上 的 模型 预测 输出 为 “+1”， 那 就 可 

















一 


以 宣布 预测 结果 为 “+1”。 
随机 化 是 用 来 在 建 模 过 

里 随机 选择 属性 的 子 集 ， 这 

间 方 法 。 


























程 
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Ff， 不 同 模型 使 















































对 于 一 些 很 稳定 的 模型 ， 挂 袋 法 的 效果 不 明显 ， 它 适合 那些 对 很 小 的 改变 也 十 分 
的 分 类 器 ， 例 如 决策 树 ， 它 很 不 稳定 ， 未 剪 校 决 策 树 就 十 分 适合 挂 袋 法 。 而 KNN (K 
邻 ) 分 类 器 则 是 一 种 很 稳定 的 模型 ， 不 过 我 们 可 以 使 用 随机 子 空间 方法 ， 为 最 近邻 方 





入 一 些 不 稳定 性 。 












































随后 的 章节 会 讲述 如 何在 KNN $ 














法 上 使 月 


分 类 问题 ， 并 基于 多 数 投票 得 到 最 后 的 预测 值 。 


8.2.1 准备 工作 


















































挂 袋 法 和 随机 子 空 间 法 ， 我 们 会 讲解 





签 为 


引入 变化 的 另 一 种 技术 ， 一 个 例子 就 是 在 集成 的 每 个 模型 
j 不 同 的 属性 集合 。 这 种 技术 被 称 为 随机 


Tu 


敏感 
最 近 
kal 


—^ 


本 节 使 用 Scikit-learn 里 的 KNeighborsClassifier 来 解决 分 类 问题 ， 用 



































数据 。 
8.2.2 ”操作 方法 





BaggingClassifier 来 应 用 挂 袋 法 , 并 先 用 make classification 函数 快捷 地 








先 加 载 必需 的 库 , 然后 写 一 个 get_data0) 函 数 , 该 函数 提供 给 我 们 的 数据 集 在 本 




















都 要 用 到 。 








from sklearn.datasets import make classification 


from sklearn.neighbors import KNeighborsClassifier 


from sklearn.ensemble import BaggingClassifier 


from sklearn.metrics import classification report 


生成 


节 中 
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from sklearn.cross validation import train test split 


def get data(): 
nonmow 
Make a sample classification dataset 
Returns : Independent variable y, dependent variable x 
non ow 
no features - 30 
redundant features - int(0.1*no features) 
informative features - int(0.6*no features) 





repeated features - int(0.1*no features) 
print no features,redundant features,informative \ 
features,repeated features 





x,y = make classification (n samples-500,n features-no ^ 
features, flip y=0.03,\ 


n informative = informative features, n redundant =\ 





redundant features \ 





;,n repeated = repeated features,random state-7) 
return x,y 











接着 再 写 3 个 函数 。 
build single model 函数 用 来 对 给 定数 据 构 建 一 个 KNN 模型 。 
build bagging model 函数 用 来 实现 挂 袋 法 过 程 。 


view model 函数 用 来 检查 所 建 的 模型 效果 。 















































def build single model (x,y): 
model = KNeighborsClassifier() 
model.fit(x,y) 
return model 


def build bagging model (x,y): 
bagging = BaggingClassifier(KNeighborsClassifier(),n \ 
estimators-100,random state-9 \ 
;,max samples-1.0,max features-0.7,bootstrap-True,bootstr'N 
ap features-True) 
bagging.fit(x,y) 
return bagging 


def view model (model): 
print "Xn Sampled attributes in top 10 estimators Mn" 
for i,feature set in enumerate(model.estimators features [0:10]): 
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print "estimator $d"Z(irl),feature set 





























最 后 编写 main 函数 ， 用 它 调用 之 前 的 所 有 函数 。 














if name == " main ": 





x,y = get data() 


# 将 数据 划分 为 训练 集 、qev 集 和 测试 集 

x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 

x dev,x test,y dev,y test = train test split(x test all,y test ^ 
all,test size-0.3,random state-9) 











# 构建 单个 模型 


model = build single model (x train,y train) 





predicted y = model.predict (x train) 

print "Xn Single Model Accuracy on training data Mn" 
print classification report(y train,predicted y) 

# 构建 多 个 模型 

bagging = build bagging model(x train,y train) 
predicted y = bagging.predict(x train) 

print "Xn Bagging Model Accuracy on training dataMn" 





print classification report(y train,predicted y) 
view model (bagging) 


# 查看 dev 集 上 运行 的 情况 
predicted y = model.predict (x dev) 





print "Xn Single Model Accuracy on Dev data\n" 
print classification report(y dev,predicted y) 


print "Xn Bagging Model Accuracy on Dev data\n" 
predicted y = bagging.predict (x dev) 





print classification report(y dev,predicted y) 


8233 工作 原理 


我 们 从 主 模块 开始 ， 先 用 get data 函数 返 
一 下 get_data 函数 的 内 部 。 

















H 














预测 器 矩阵 x 和 反应 变量 向 量 Y， 来 看 


no features = 30 
redundant features - int(0.1*no features) 
informative features - int(0.6*no features) 
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repeated features = int(0.1*no features) 

x,y -make classification(n samples-500,n features-no features,flip \ 
y=0.03,\ 
n informative = informative features, n redundant = redundant features\ 


rn_ repeated = repeated features,random state=7) 








我 们 来 看 下 传递 给 make classification 函数 的 各 个 参数 。 第 1 个 是 所 需 的 实例 
数量 ， 本 例 需要 500 个 实例 。 第 2 个 是 每 个 实例 需要 的 属性 数量 ， 就 是 定义 在 变量 
no features 中 的 30。 第 3 个 参数 flip_y， 要 求 随机 互 换 实例 的 3 多 ， 这 是 为 了 在 数据 
中 产生 一 些 噪音 。 接 下 来 的 参数 指定 了 从 30 个 特征 中 选择 具有 足够 的 信息 量 来 进行 分 类 的 
特征 个 数 ， 我 们 设 定 为 特征 的 60%， 也 就 是 30 个 特征 中 的 18 个 应 该 是 高 信息 量 的 。 再 下 
一 个 参数 是 关于 元 余 参 数 的 ， 它 们 产生 了 高 信息 量 特征 的 线性 组 合 以 构成 特征 之 间 的 关联 。 
最 后 ， 重 复 特征 是 从 高 信息 量 特征 和 宛 余 特征 中 随机 选择 的 副本 。 


我 们 用 train test split 函数 把 数据 划分 为 训练 集 和 测试 集 ， 保 留 30% 的 数据 用 
来 测试 。 













































































































































































# 将 数据 划分 为 训练 集 、dev 集 和 测试 集 
x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 

















接着 再 次 调用 train test split 函数 把 测试 集 数据 划分 为 dev 集 和 测试 集 。 























x dev,x test,y dev,y test = train test split(x test all,y test ^ 











all,test size-0.3,random state-9) 

















有 了 建 模 、 评 估 和 测试 所 需 的 数据 ， 我 们 接着 开始 建 模 。 先 按 下 面 的 语句 使 用 
KNeighborsClassifier 来 构建 一 个 单独 的 模型 。 











model = build single model (x train,y train) 














在 这 个 函数 内 部 , 我 们 创建 了 一 个 KNeighborsClassifier 类 型 的 对 象 , 然后 用 数 
据 适 配 模型 ， 代 码 如 下 。 














def build single model (x,y): 
model = KNeighborsClassifier() 
model.fit(x,y) 
return model 

















前 面 解释 过 ，KNearestNeighbor 是 一 种 非常 稳定 的 算法 ， 我 们 来 看 看 模型 的 情况 ， 
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在 训练 集 上 执行 预测 ， 然 后 观察 模型 的 指标 。 





predicted y = model.predict (x train) 
print "Mn Single Model Accuracy on training data\n" 
print classification report(y train,predicted y) 


classification report Æ scikit-learn 的 指标 模块 提供 的 快捷 函数 ， 
供 了 一 个 由 精度 、 召 回 率 和 £1 分 数组 成 的 表格 。 


















































它 提 





如 图 8-1 Hrs, Eit 350 个 实例 ， 精 度 是 87%。 记 住 这 张 图 , 我 们 继续 用 挂 袋 法 建 模 。 








Single Model Accuracy on training data 


precision recall fl-score support 


181 
169 


350 





bagging = build bagging model (x train,y train) 








我 们 用 builgd_bagging_model 函数 在 训练 集 上 构建 一 系列 模型 ， 代 码 如 下 。 


def build bagging model (x,y): 
bagging = BaggingClassifier(KNeighborsClassifier(),n \ 
estimators-100,random state-9 \ 


max samples-1.0,max features-0.7,bootstrap-True,bootstrN 


ap features-True) 
bagging.fit (x,y) 
return bagging 





一 





我 们 在 方法 的 内 部 调用 了 BaggingClassifier 类 ,请 注意 我 们 传递 给 这 个 类 i 





初始 化 的 参数 。 
































fT 


第 1 个 参数 是 一 个 隐 含 的 评估 器 或 者 模型 ,我 们 传递 的 是 KNeighborsCclassifier， 
这 告诉 挂 袋 法 的 分 类 器 我 们 需要 构建 一 系列 的 KNearestNeighbor 分 类 器 。 接 下 来 的 那 





个 参数 指定 了 我 们 要 构建 的 评估 器 数量 ， 这 里 的 设 定 值 是 100 T. random state 参数 
是 随机 数 发 生 器 使 用 的 种 子 , 为 了 在 不 同 的 运行 过 程 中 保持 一 致 ， 我 们 把 它 设置 为 整数 值 。 















































接 下 来 的 参数 是 max_sample,， 它 指定 了 在 从 输入 数据 集 里 自 举 时 每 个 评估 器 要 选 
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的 实例 数量 。 本 例 中 ， 我 们 让 挂 袋 法 选择 所 有 的 实例 。 

再 下 一 个 参数 max_features, 指定 了 给 每 个 评估 器 自 举 时 要 包含 的 属性 数量 ， 这 里 
我 们 只 需 包 会 70$ 的 属性 。 因 此 ， 集 成 中 每 一 个 评估 器 /模型 ， 都 会 使 用 不 同 的 属性 子 集 
来 建 模 ， 这 就 是 之 前 介绍 过 的 随机 空间 方法 。 函 数 接 下 来 适 配 了 模型 ， 并 返回 模型 给 调用 



































H 











bagging = build bagging model (x train,y train) 
predicted y = bagging.predict(x train) 

print "Xn Bagging Model Accuracy on training data\n" 
print classification report(y train,predicted y) 


我 们 来 看 看 模型 的 精确 度 。 
如 图 8-2 所 示 ， 模 型 的 效果 指标 有 了 很 大 的 提升 。 

















Bagging Model Accuracy on training data 
precision recall f1-score support 
e 0.94 9.97 09.95 181 
1 0.96 0.93 0.95 169 
avg / total 0.95 0.95 0.95 350 
图 8-2 























在 使 用 dev 集 对 模型 进行 测试 之 前 ， 我 们 用 view model 函数 来 看 看 分 配给 不 同 模 
型 的 属性 。 














view model (bagging) 


用 如 下 代码 打印 出 前 10 个 模型 所 选择 的 属性 。 


def view model (model): 
print "Xn Sampled attributes in top 10 estimators Mn" 
for i,feature set in enumerate(model.estimators features [0:10]): 








print "estimator $d"Z(irl),feature set 








如 图 8-3 所 示 ， 从 结果 中 可 以 看 出 ， 分 配给 每 个 评估 器 的 属性 分 布 相当 随机 ， 这 样 ， 
我 们 给 每 个 评估 器 引入 了 变化 。 
接 下 来 我 们 来 检查 单个 分 类 器 和 一 群 评估 器 在 dev 数据 集 上 执行 的 效果 。 
# 查看 dev 集 上 运行 的 情况 
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predicted y = model.predict(x dev) 
print "Xn Single Model Accuracy on Dev data\n" 
print classification report(y dev,predicted y) 


print "Xn Bagging Model Accuracy on Dev data\n" 
predicted y = bagging.predict (x dev) 
print classification report(y dev,predicted y) 


Sampled attributes in top 10 estimators 
1117 9 10 
20 
24 
17 
26 
5 
25 
20 
20 


18 17 11 21 


1 
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6 
7 
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9 
1 








图 8-3 


如 图 8-4 所 示 ， 正 如 我 们 所 期 望 的 ， 在 dev 数据 集 上 ， 一 群 评估 器 执行 得 到 的 结果 要 
好 过 单个 的 分 类 器 。 














Single Model Accuracy on Dev data 
precision recall fi1-score support 
e 9.83 0.84 0.83 51 
1 9.85 0.83 0.84 54 
avg / total 6.84 0.84 0.84 105 
Bagging Model Accuracy on Dev data 
precision recall fi-score support 
e 0.85 0.88 0.87 51 
1 0.88 0.85 0.87 54 
avg / total 0.87 0.87 0.87 1e5 
图 8-4 





82.4 更 多 内 容 


前 面 说 过 ， 对 于 分 类 问题 ， 得 到 多 数 票 的 分 类 标签 被 选 为 最 终 的 预测 值 。 不 采用 投 
票 方案 ， 我 们 也 可 以 让 各 个 成 分 模型 输出 这 个 标签 的 预测 概率 ， 这 些 概率 的 平均 值 可 以 
被 用 来 决定 最 终 输出 的 标签 。 在 Scikit 的 API 文档 中 提供 了 最 终 预 测 值 如 何 产生 的 细 
节 描 述 : 
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“输入 的 样本 被 预测 的 分 类 结果 是 具有 最 高 平均 预测 概率 的 类 别 ， 如 果 基 准 评 估 器 没有 
实施 predict proba 方法 ， 则 诉 诸 于 投票 。” 请 参见 : http://scikit-learn.org/stable/modules/ 
generated/sklearn.ensemble.BaggingClassifier.html - 

上 一 章 里 我 们 讨论 了 交叉 验证 ， 它 看 起 来 有 点 像 挂 袋 法 ， 但 它们 在 实践 中 的 用 法 不 同 。 
对 于 交叉 验证 ， 我 们 创建 了 k 份 数 据 ， 模 型 基于 这 些 份 的 数据 产生 输出 ， 我 们 可 以 为 模 
型 选择 参数 ， 例 如 为 岭 回 归 选 择 alpha 参数 。 这 样 做 的 主要 目的 是 避免 在 建 模 过 程 中 暴露 
测试 数据 ， 交 叉 验 证 也 可 以 用 到 挂 袋 法 中 ， 用 来 检测 所 需 的 往 挂 袋 法 模块 中 添加 的 评估 

挂 袋 法 的 一 个 缺点 是 模型 的 可 解释 性 降低 了 。 以 一 个 剪 校 后 的 简单 决策 树 来 说 ， 它 很 
容易 解释 决策 树 模 型 的 含义 。 而 一 旦 我 们 有 100 个 这 样 的 模型 ， 就 成 了 一 个 黑箱 。 为 了 提 
升 精确 度 ， 我 们 只 能 牺牲 可 解释 性 。 

你 可 以 阅读 Leo Breiman 的 论文 来 了 解 挂 袋 法 的 更 多 信息 ， 请 参见 ; 

Leo Breiman 车, (Bagging predictors.Mach. Learn) 24, 2 (1996 年 8 H), $8 123—140 页 。 
DOI-z10.1023/A:1018054314350 http://dx.doi.org/10.1023/A:1018054314350. 


825 参考 资料 
第 7 章 “机 器 学 习 2” 中 7.5 节 “L1 和 12 缩减 交叉 验证 迭代 ”的 相关 内 容 。 
第 6 章 “机 器 学 习 1” 中 6.5 节 “ 构 建 决策 树 解决 多 类 问题 ”的 相关 内 容 。 
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提升 法 是 一 种 强大 的 集成 技术 ,在 数据 科学 中 得 到 了 广泛 应 用 ， 实 际 上 ， 它 是 数据 科学 工 
具 包 最 基本 的 工具 之 一 。 和 挂 袋 法 类 似 ， 提 升 法 也 使 用 一 群 评估 器 ， 但 这 也 是 两 者 间 仅 有 的 相 
似 之 处 。 在 深入 了 解 之 前 ， 我 们 先 大 致 了 解 一 下 提升 法 是 如 何 成 为 一 个 高 效 的 集成 工具 的 。 
以 我 们 熟悉 的 二 元 分 类 问题 为 例 ， 输 入 是 一 系列 的 预测 器 (x)， 输 出 是 取 值 只 能 为 0 
或 1 的 反应 变量 (y)， 这 个 分 类 器 的 输入 可 以 表达 为 下 式 。 
X-([xi x» ..., xw] and Y={0,1} 
分 类 器 的 任务 就 是 找到 一 个 可 以 近似 的 函数 。 
Y-F(X) 
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分 类 器 错误 分 类 的 比例 定义 如 下 式 。 
1 N 
error rate — — y instance where y,!= F(x) 
i=1 


假设 我 们 构建 了 一 个 弱 分 类 器 ， 其 错误 比例 仅 稍 好 于 随机 猜测 。 在 提升 法 里 构建 一 系 
列 弱 分 类 器 用 在 进行 了 微调 的 数据 集合 上 ， 每 个 分 类 器 使 用 的 数据 只 做 了 小 小 的 调整 ， 最 
后 结束 于 第 M 个 分 类 器 。 































































































FX, FXX), ..., FuX) 
最 后 ， 把 各 个 分 类 器 生成 的 预测 结果 集成 起 来 进行 加 权 多 数 票 投票 。 








Fina (X) = sign (Zano) 





述 这 种 方法 就 称 为 AdaBoost。 

提升 法 和 挂 袋 法 的 不 同 之 处 就 在 于 权重 alpha 和 顺序 建 模 。 前 面 说 过 ， 提 升 法 构建 了 
一 系列 的 弱 分 类 器 ， 并 给 每 个 分 类 器 使 用 经 过 微调 的 数据 集 。 我 们 来 看 看 数据 微调 是 怎么 
回 事 ， 正 是 这 些微 调 的 影响 产生 了 权重 alpha. 

从 第 1 个 分 类 器 初始 化 开始 ，m=1， 先 把 每 个 实例 的 权重 定 为 1V， 也 就 是 说 ， 如 果 有 
100 条 记录 ， 每 条 记录 获得 0.01 的 权重 ， 我 们 用 w 来 表示 权重 ， 现 在 有 100 个 这 样 的 权重 
值 如 下 。 





























































































































Wi.W»,....WN 
现在 所 有 记录 被 分 类 器 选中 的 机 会 是 均等 的 ， 我 们 来 创建 一 个 分 类 器 ， 对 训练 集 进行 
测试 以 获取 错误 分 类 比例 。 之 前 曾 提 到 过 错误 分 类 比例 计算 公式 ， 现 在 对 它 做 一 点 小 改动 ， 
引入 权重 ， 公 式 如 下 。 
































N . 
2 w, X abs(y, — predicted y,) 
error rate, = 一 一 N 


W. 
i=1 i 




















公式 里 的 abs 表示 取 绝 对 值 ， 根 据 错误 比例 ， 我 们 采用 下 面 的 公式 来 计算 alpha fi. CE 


























Ies 
= 
cL 
X 
由 
ip 
NM 





人 | (1— error rate, 十 m) 


error rate, + epsilon 
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上 式 中 的 espilon Ce) 是 一 个 非常 小 的 值 。 


假定 模型 1 的 错误 0.3， 也 就 是 它 可 以 对 70% 的 记录 进行 正确 分 类 ， 因 此 ， 这 个 
模型 的 权重 将 大 致 为 0.8， 这 是 个 不 错 的 权重 。 基 于 这 个 结果 ,我们 回头 给 单独 的 记录 设置 
权重 ， 方 法 如 下 。 



























































w, = w, xexp(a, x abs( y, — predited y,)) 


如 你 所 见 ， 那 些 被 错误 分 类 的 属性 的 权重 值 都 上 升 了 ， 这 就 提高 了 那些 分 类 错误 的 记 
录 被 下 一 个 分 类 器 选中 的 几率 。 序 列 中 随后 的 分 类 器 会 选择 权重 较 大 的 实例 ， 并 试 着 适 配 
它 。 就 这 样 ， 后 续 的 分 类 器 都 会 对 前 一 个 分 类 器 错误 分 类 的 实例 更 加 关注 。 


这 就 是 提升 法 的 威力 ， 它 可 以 将 多 个 弱 分 类 器 转化 为 一 个 强 分 类 器 整体 。 
下 面 将 对 提升 法 进行 实践 ,在 代码 演示 的 同时 , 我 们 也 将 介绍 一 种 AdaBoost 的 轻微 修 
正版 一 一 SAMME。 


8.3.1 ”准备 工作 


本 节 将 使 用 scikit-learn 的 DecisionTreeClassifier 类 来 进行 分 类 ， 使 用 
AdaBoostClassifier 来 应 用 提升 法 。 我 们 用 make classification 函数 来 生成 本 
节 所 需 的 数据 。 


8.3.2 ”操作 方法 


先 加 载 必需 的 库 ， 随 后 写 一 个 函数 get_data()， 用 它 给 本 节 内 容 提 供 一 个 数据 集 。 
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from sklearn.datasets import make_classification 
from sklearn.ensemble import AdaBoostClassifier 





from sklearn.metrics import classification report,zero one loss 
from sklearn.cross validation import train test split 

from sklearn.tree import DecisionTreeClassifier 

import numpy as np 

import matplotlib.pyplot as plt 

import itertools 


def get data(): 
non ow 
Make a sample classification dataset 
Returns : Independent variable y, dependent variable x 


mn 


no features = 30 
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redundant features = int(0.1*no features) 
informative features - int(0.6*no features) 
repeated features - int(0.1*no features) 


print no features,redundant features,informative \ 





features,repeated features 
x,y = make classification (n samples-500,n features-no ^ 
features,flip y-0.03,^ 





n informative = informative features, n redundant = \ 


redundant features \ 





;n repeated = repeated features,random state-7) 


return x,y 


def build single model (x,y): 
model = DecisionTreeClassifier() 
model.fit(x,y) 
return model 


def build boosting model (x,y,no estimators-20): 
boosting = AdaBoostClassifier(DecisionTreeClassifier (max \ 
depth-1,min samples leaf-1),random state-9 \ 





,Dn estimators-no estimators,algorithm-"SAMME") 
boosting.fit(x,y) 
return boosting 





def view model (model): 
print "Xn Estimator Weights and Error\n" 








for i,weight in numerate (model.estimator weights ): 





print "estimator $d weight = $0.4f error = N 
$0.4f"$(it*l,weight,model.estimator errors [i]) 


plt.figure(1) 

plt.title("Model weight vs error") 
plt.xlabel ("Weight") 

plt.ylabel ("Error") 





plt.plot(model.estimator weights ,model.estimator errors ) 


def number estimators vs err rate(x,y,x dev,y dev): 


no estimators = range (20,120,10) 
misclassy rate - [] 
misclassy rate dev = [] 


for no estimator in no estimators: 


boosting = build boosting model (x,y,no estimators-no \ 
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estimator) 
predicted y = boosting.predict (x) 





predicted y dev = boosting.predict (x dev) 





misclassy rate.append(zero one loss(y,predicted y)) 
misclassy rate dev.append(zero one loss(y dev,predicted y \ 

















dev)) 
plt.figure (2) 
plt.title("No estimators vs Mis-classification rate") 
plt.xlabel("No of estimators") 
plt.ylabel("Mis-classification rate") 
plt.plot(no estimators,misclassy rate,label-'Train') 
plt.plot(no estimators,misclassy rate dev,label-'Dev') 
plt.show() 

if name == " gain ": 





x,y = get data() 
plot data (x,y) 


# 将 数据 集 划分 为 训练 集 、dev 集 和 测试 集 

x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 

x dev,x test,y dev,y test = train test split(x test all,y test ^ 











all,test size-0.3,random state-9) 


# 构建 一 个 单独 的 模型 

model = build single model (x train,y train) 

predicted y = model.predict(x train) 

print "Xn Single Model Accuracy on training dataMn" 





print classification report(y train,predicted y) 
print "Fraction of misclassfication = $0.2f"$(zero one loss(y \ 
train,predicted y)*100),"£" 


# 构建 多 个 模型 

boosting = build boosting model(x train,y train, no estimators-85) 

predicted y = boosting.predict(x train) 

print "Xn Boosting Model Accuracy on training data Mn" 

print classification report(y train,predicted y) 

print "Fraction of misclassfication = $0.2f"$(zero one loss(y \ 
train,predicted y)*100),"£" 


view model (boosting) 
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# 查看 dev 集 上 运行 的 情况 
predicted y = model.predict (x dev) 





print "Xn Single Model Accuracy on Dev dataWn" 
print classification report(y dev,predicted y) 
print "Fraction of misclassfication = £$0.2f"$(zero one loss(y ^ 
dev,predicted y)*100),"$" 


print "Xn Boosting Model Accuracy on Dev data\n" 
predicted y = boosting.predict(x dev) 
print classification report(y dev,predicted y) 











print "Fraction of misclassfication = £$0.2f"$(zero one loss(y ^ 
dev,predicted y)*100),"£" 


number estimators vs err rate(x train,y train,x dev,y dev) 











接着 再 写 3 个 函数 。 

build single model 函数 用 来 对 给 定数 据 构建 一 个 简单 的 决策 树 模型 。 
build boosting model 函数 用 来 实现 提升 法 过 程 。 
view model 函数 用 来 检查 所 建 的 模型 效果 。 





















































def build single model (x,y): 
model = DecisionTreeClassifier() 
model.fit(x,y) 
return model 


def build boosting model (x,y,no estimators-20): 
boosting = AdaBoostClassifier(DecisionTreeClassifier (max \ 
depth-1,min samples leaf-1),random state-9 \ 





;,Dn estimators-no estimators,algorithm-"SAMME") 
boosting.fit (x,y) 
return boosting 





def view model (model): 
print "Xn Estimator Weights and Error\n" 








for i,weight in numerate (model.estimator weights ): 





print "estimator $d weight = $0.4f error = N 
$0.4f"$(it*l,weight,model.estimator errors [i]) 


plt.figure(1) 
plt.title("Model weight vs error") 
plt.xlabel ("Weight") 
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plt.ylabel ("Error") 
plt.plot(model.estimator weights ,model.estimator errors ) 




















接着 我 们 写 一 个 number estimators vs err rate 函数 ， 用 它 来 查看 模型 错误 
比例 的 变化 情况 与 集成 中 模型 的 数量 之 间 的 关系 。 





























def number estimators vs err rate(x,y,x dev,y dev): 


no estimators = range (20,120,10) 
misclassy rate - [] 
misclassy rate dev = [] 


for no estimator in no estimators: 
boosting = build boosting model (x,y,no estimators-no \ 
estimator) 
predicted y = boosting.predict (x) 
predicted y dev = boosting.predict (x dev) 





misclassy rate.append(zero one loss(y,predicted y)) 








misclassy rate dev.append(zero one loss(y dev,predicted y \ 















































dev)) 
plt.figure (2) 
plt.title("No estimators vs Mis-classification rate") 
plt.xlabel("No of estimators") 
plt.ylabel("Mis-classification rate") 
plt.plot(no estimators,misclassy rate,label-'Train') 
plt.plot(no estimators,misclassy rate dev,label-'Dev') 
plt.show() 

最 后 编写 main 函数 ， 用 它 调 用 之 前 的 所 有 函数 。 

Lf name == " main ": 





x,y = get data() 
plot data (x,y) 


# 将 数据 集 划 分 为 训练 集 、dev 集 和 测试 集 
x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 





x dev,x test,y dev,y test = train test split(x test all,y test ^ 








all,test size-0.3,random state-9) 


# 构 建 一 个 单独 的 模型 


model = build single model (x train,y train) 





predicted y = model.predict(x train) 
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print "Xn Single Model Accuracy on training dataMn" 

print classification report(y train,predicted y) 

print "Fraction of misclassfication = $0.2f"$(zero one loss(y. 
train,predicted y)*100),"£" 


# 构建 多 个 模型 

boosting = build boosting model(x train,y train, no estimators-85) 

predicted y = boosting.predict(x train) 

print "Xn Boosting Model Accuracy on training data Mn" 

print classification report(y train,predicted y) 

print "Fraction of misclassfication = $0.2f"$(zero one loss(y. 
train,predicted y)*100),"£" 


view model (boosting) 


# 查看 dev 集 上 运行 的 情况 
predicted y = model.predict (x dev) 





print "Mn Single Model Accuracy on Dev data\n" 
print classification report(y dev,predicted y) 
print "Fraction of misclassfication = £$0.2f"$(zero one loss(y ^ 
dev,predicted y)*100),"$" 


print "Xn Boosting Model Accuracy on Dev data\n" 
predicted y = boosting.predict(x dev) 
print classification report(y dev,predicted y) 











print "Fraction of misclassfication = £$0.2f"$(zero one loss(y ^ 
dev,predicted y)*100),"$" 


number estimators vs err rate(x train,y train,x dev,y dev) 





8333 ”工作 原理 


我 们 从 主 模块 开始 ， 先 用 get data 函数 加 载 预测 器 x 和 反应 变量 y， 来 仔细 看 一 下 
这 个 函数 。 











no features = 30 

redundant features - int(0.1*no features) 
informative features - int(0.6*no features) 
repeated features - int(0.1*no features) 








x,y -make classification (n samples-500,n features-no features,flip \ 
y=0 .03,\ 
n informative = informative features, n redundant = redundant features \ 





;n repeated = repeated features,random state-7) 
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我 们 来 看 一 下 传递 给 make classification 函数 的 各 个 参数 。 第 1 个 是 所 需 的 实 
例 数 量 ， 本 例 需要 500 个 实例 。 第 2 个 是 每 个 实例 需要 的 属性 数量 ， 就 是 定义 在 变量 
no features 中 的 30。 第 3 个 参数 flip_y， 要 求 随机 互 换 实例 的 3 多 ， 这 是 为 了 在 数据 
中 产生 一 些 噪音 。 接 下 来 的 参数 指定 了 从 30 个 特征 中 选择 具有 足够 的 信息 量 来 进行 分 类 
的 特征 个 数 ， 我 们 设 定 为 特征 的 60%， 也 就 是 30 个 特征 中 的 18 个 应 该 是 高 信息 量 的 。 再 
下 一 个 参数 是 关于 元 余 参数 的 ， 它 们 产生 了 高 信息 量 特征 的 线性 集成 以 构成 特征 之 间 的 关 
联 。 最 后 ， 重 复 特 征 是 从 高 信息 量 特征 和 元 余 特 征 中 随机 选择 的 副本 。 

我 们 用 train test split 函数 把 数据 划分 为 训练 集 和 测试 集 ， 保 留 30% 的 数据 用 
来 测试 。 

# 将 数据 划分 为 训练 集 、dev 集 和 测试 集 


x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 
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接着 再 次 调用 train test split 函数 把 测试 集 数据 划分 为 dev 集 和 测试 集 。 




















x dev,x test,y dev,y test = train test split(x test all,y test ^ 
all,test size-0.3,random state-9) 























有 了 建 模 、 评 估 和 测试 所 需 的 数据 ， 我 们 接着 开始 建 模 。 先 构建 一 个 简单 的 决策 树 ， 
然后 查看 在 训练 集 上 决策 树 的 效果 。 
# 构 建 一 个 单独 的 模型 


model = build single model (x train,y train) 















































我 们 应 用 预测 器 和 反应 变量 调用 build single model 函数 来 构建 一 个 模型 , 在 其 
内 部 适 配 了 一 个 简单 的 决策 树 ， 并 给 调用 者 函数 返回 这 棵 树 。 






































def build single model (x,y): 
model = DecisionTreeClassifier() 
model.fit(x,y) 


return model 




















我 们 用 classification report 函数 来 看 看 模型 的 效果 ， 它 是 scikit-learn 
的 工具 函数 ， 可 以 提供 一 系列 指标 ， 如 精度 、 召 回 率 和 fl 分 数 等 。 我们 也 让 它 显示 错误 分 
类 的 比例 。 























predicted y = model.predict(x train) 
print "Xn Single Model Accuracy on training dataMn" 
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print classification report(y train,predicted y) 
print "Fraction of misclassfication = \ 


$0.2£"£(zero one loss(y train,predicted y)*100),"£$" 























如 图 8-5 所 示 ， 决 策 树 模型 适 配 数据 的 效果 非常 好 一 一 错误 分 类 比例 为 0。 在 对 dev 





数据 测试 这 个 模型 之 前 ， 我 们 先 构 建 一 个 集成 。 


Single Model Accuracy on training data 


precision recall fi-score support 


e 1.00 1.00 1.00 181 
1 1.00 1.00 1.00 169 


avg / total 1.00 1.00 1.00 350 


Fraction of misclassfication = 0.00 % 


8-5 








# 构建 多 个 模型 


boosting = build boosting model(x train,y train, no estimators-85) 





Hl build boosting model 函数 构建 模型 集成 ， 代 码 如 下 。 


boosting = AdaBoostClassifier(DecisionTreeClassifier (max \ 
depth-1,min samples leaf-1),random state-9 \ 

;n estimators-no estimators,algorithm-"SAMME") 

boosting.fit (x,y) 

















我 们 调用 scikit-learn 里 的 AdaBoostClassifier 来 构建 提升 法 的 模型 集成 ， 
这 个 类 初始 化 时 的 参数 如 下 。 

评估 器 : 本 例 中 要 构建 的 是 决策 树 集 成 ,因此 传递 的 是 DecisionTreeClassifier 
对 象 。 


max depth: 我 们 不 需要 决策 树 完全 生长 ， 只 需要 树桩 只 有 两 个 时 节点 和 一 个 分 
支 节点 ， 因 此 ，max_depth 参数 被 设置 为 1。 
对 于 n_estimators 参数 ， 我 们 要 指定 需要 生成 的 树 的 数量 ， 本 例 为 85。 


最 后 一 个 参数 是 algorithm， 这 里 设置 为 SAMME， 它 是 “Stage wise Additive 
Modeling using Multi-class Exponential loss function (使 用 多 分 类 指数 
损失 函数 的 逐步 县 加 建 模 )” 的 缩写 ,是 AdaBoosting 算法 的 增强 版 ， 它 给 错误 分 类 的 记 
录 添 加 更 多 的 权重 。 模 型 的 权重 alpha 是 SAMME 和 AdaBoost 两 者 间 的 区 别 所 在 。 
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sis (e —error rate, + T log(K —1) 


error rate, + epsilon 








上 式 中 ， 我 们 忽略 了 常数 0.5， 请 注意 新 增 的 部 分 : log(K-1). W K=2， 上 面 的 
式 子 就 退化 成 AdaaBoost， 这 里 ，K 是 反应 变量 里 类 别 的 数量 。 对 于 二 元 分 类 问题 ， 如 前 
FTIR, SAMME 退化 成 AdaBoost。 

接 下 来 适 配 模型 ， 并 返回 给 调用 者 函数 。 我 们 在 训练 集 上 运行 这 个 模型 ， 然 后 查看 模 
型 的 效果 。 















































predicted y = boosting.predict (x train) 

print "Xn Boosting Model Accuracy on training data\n" 

print classification report(y train,predicted y) 

print "Fraction of misclassfication = $0.2f"£$(zero one loss(y NV 


train,predicted y)*100),"$" 


如 


图 8-6 所 示 ， 模 型 的 效果 和 初始 模型 的 相差 不 大 ， 这 个 模型 集成 把 大 约 98% 的 记录 





进行 了 正确 的 分 类 。 
Boosting Model Accuracy on training data 
precision recall fl-score 
e 0.98 0.98 e.98 
1 0.98 0.98 e.98 
avg / total 0.98 0.98 9.98 








Fraction of misclassfication = 1.71 X 





























在 使 用 dev 集 对 模型 进行 测试 之 前 , 我 们 用 view model 函数 来 看 看 提升 法 的 集成 。 


在 


$0 


如 








view model (boosting) 





view model 函数 内 部 ， 我 们 先 打 印 出 集成 中 每 个 分 类 器 关联 的 权重 值 。 








print "Xn Estimator Weights and Error\n" 





for i,weight in numerate (model.estimator weights ): 
print "estimator $d weight = $0.4f error = N 
.4f£"$(itl,weight,model.estimator errors [i]) 


图 8-7 所 示 ， 我 们 展示 了 集成 中 的 前 20 个 成 员 的 权重 值 ， 基 于 它们 的 错误 分 类 比 





例 ， 这 些 评估 器 关联 的 权重 值 都 不 一 样 。 
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Estimator Weights and Error 


estimator 1 weight = 0.8337 error 
estimator 2 weight - 0.8921 error 
estimator 3 weight - 0.6730 error 
estimator 4 weight = 0.6067 error 
estimator 5 weight - 0.5746 error 
estimator 6 weight - 0.5537 error 
estimator 7 weight = 0.5697 error 
estimator 8 weight = 0.5538 error 
estimator 9 weight = 0.5579 error 
estimator 10 weight - 0.4530 error 
estimator 11 weight = 0.4530 error 
estimator 12 weight = 0.3564 error 
estimator 13 weight - 0.4130 
estimator 14 weight - 0.3679 
estimator 15 weight = 0.3142 
estimator 16 weight = 0.3888 
estimator 17 weight - 0.4902 
estimator 18 weight - 0.2798 
estimator 19 weight = 0.4463 
estimator 20 weight = 0.2645 





图 8-7 
接着 我 们 绘制 出 每 个 评估 器 权重 对 应 其 分 类 错误 的 图 形 。 


plt.figure(1) 

plt.title("Model weight vs error") 

plt.xlabel ("Weight") 

plt.ylabel ("Error") 

plt.plot(model.estimator weights ,model.estimator errors ) 


如 图 8-8 所 示 ， 相 较 于 更 高 错误 比例 的 模型 ， 分 类 正确 率 越 高 的 模型 被 分 配 的 权重 值 
越 大 。 





图 8-8 
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接 下 来 我 们 来 检查 简单 决策 树 和 一 群 评估 器 在 dev 数据 集 上 执行 的 效果 。 








HE dev 集 上 运行 的 情况 
predicted y = model.predict (x dev) 





print "\n Single Model Accuracy on Dev data\n" 
print classification report(y dev,predicted y) 
print "Fraction of misclassfication = £$0.2f"$(zero one loss(y ^ 


dev,predicted y)*100),"£" 


print "Xn Boosting Model Accuracy on Dev data\n" 

predicted y = boosting.predict (x dev) 

print classification report(y dev,predicted y) 

print "Fraction of misclassfication = £$0.2f"$(zero one loss(y ^ 


dev,predicted y)*100),"£" 


和 之 前 在 训练 数据 上 的 操作 差不多 ， 我 们 打印 出 分 类 报告 和 分 类 错误 比例 。 

如 图 8-9 所 示 ， 简 单 的 决策 树 模型 效果 不 佳 ， 虽 然 它 在 训练 集 上 的 精确 度 达到 了 100%, 
但 在 dev 数据 上 几乎 有 40% 的 记录 分 类 都 是 错误 的 一 一 这 是 过 拟 合 的 特征 。 与 之 相反 ,所 
升 法 模型 能 够 更 好 地 适应 gev 数据 。 


























Single Model Accuracy on Dev data 
precision recall fi1-score support 


51 
54 


avg / total e.63 è . 105 


Fraction of misclassfication = 38.10 % 
Boosting Model Accuracy on Dev data 
precision recall fi-score support 


51 
54 


avg / total 





Fraction of misclassfication = 19.05 X 








图 8-9 











pim 
E 








该 怎样 让 提升 法 模型 的 效果 更 好 呢 ? 一 条 途径 是 测试 训练 集 的 错误 比例 和 我 们 在 外 
中 包含 的 模型 数量 的 对 应 关系 。 
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number estimators vs err rate(x train,y train,x dev,y dev) 








下 面 的 函数 逐步 适 配 模 型 数量 不 断 增长 的 集成 ， 并 绘 出 相应 的 错误 比例 。 














def number estimators vs err rate(x,y,x dev,y dev): 


no estimators = range(20,120,10) 
misclassy rate - [] 
misclassy rate dev = [] 


for no estimator in no estimators: 
boosting = build boosting model (x,y,no estimators-no N 
estimator) 
predicted y = boosting.predict (x) 
predicted y dev = boosting.predict (x dev) 








misclassy rate.append(zero one loss(y,predicted y)) 





misclassy rate dev.append(zero one loss(y dev,predicted y ^ 


dev)) 


plt.figure (2) 

plt.title("No estimators vs Mis-classification rate") 
plt.xlabel("No of estimators") 
plt.ylabel("Mis-classification rate") 


plt.plot(no estimators,misclassy rate,label-'Train') 





plt.plot(no estimators,misclassy rate dev,label-'Dev') 











plt.show() 





如 你 所 见 ， 我 们 声明 了 一 个 列表 ， 从 20 开始 到 120 结束 ， 增 幅 为 10。 在 for 循 
环 内 部 , 列表 的 每 个 成 员 作 为 estimator 参数 的 值 传 递 给 build boosting model 
函数 ， 然 后 处 理 模 型 的 错误 比例 ， 接 着 在 dev 集 上 检测 错误 比例 。 现 在 我 们 有 了 两 个 
列表 ， 一 个 保存 了 在 训练 集 上 的 所 有 错误 比例 ， 另 一 个 则 保存 dev 集 上 的 所 有 错误 比 
例 。 把 两 者 的 图 形 绘制 出 来 ，x 轴 是 评估 器 的 数量 ，y 轴 是 dev 集合 训练 集 上 的 分 类 错 
误 比 例 。 


如 图 8-10 所 示 ， 在 30 一 40 个 评估 器 的 区 间 ，qerv 集 上 的 错误 比例 较 低 。 我 们 可 以 进 
一 步 尝 试 调整 各 种 模型 参数 以 达到 较 好 的 效果 。 
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83.4 更 多 内 容 


这 篇 创造 性 的 论文 介绍 了 提升 法 ， 请 参见 : 
Freund Y. 和 Schapire R. (1997), 《A decision theoretic generalization of on-line learning and 


an application to boosting), 《Journal of Computer and System Sciences》，55(1)， 第 119— 
139 页 。 


最 初 ， 大 多 数 提升 法 将 多 分 类 问题 降 为 二 元 分 类 问题 和 多 重 二 元 分 类 问题 ， 下 面 这 篇 
论文 将 AdaBoost 扩展 到 了 多 分 类 问题 ， 请 参见 : 


Trevor Hastie, Saharon Rosset, Ji Zhu, Hui Zou 等 人 《Multi-class AdaBoost Statistics and 
Its Interface), 58$ 23$, $8 3 号 (20090, $8 349—360 Ji, doi:10.4310/sii.2009.v2.n3.a8 。 


这 篇 论文 也 讲解 了 本 节 介绍 过 的 SAMME 。 
8.3.5 ”参考 资料 


第 6 章 “ 机 器 学 习 1” 中 6.5 节 “ 构 建 决策 树 解决 多 类 问题 ”的 相关 内 容 。 
第 7 章 “ 机 器 学 习 2” 中 7.5 节 “L1 和 12 缩减 交叉 验证 迭代 ”的 相关 内 容 。 
第 8 章 “ 集 成 方法 ”中 8.2 节 “ 理 解 集成 一 一 挂 袋 法 ”中 模型 选择 和 评估 的 相关 内 容 。 


















































320 第 8 章 集成 方法 


8.4 理解 集成 一 一 梯度 提升 














先 回 顾 一 下 上 一 节 所 述 的 提升 法 : 我 们 用 一 种 渐进 的 ， 阶 段 改良 的 方式 适 配 出 一 个 增 
强 的 模型 ， 分 类 器 构成 一 个 序列 ， 每 个 分 类 器 诞生 时 ， 我 们 评估 其 权重 /重要 性 。 基 于 此 ， 
再 对 训练 集中 的 实例 的 权重 进行 调整 。 分 类 错误 的 实例 获得 的 权重 比 正确 的 要 大 ， 这 样 下 
一 个 模型 更 有 可 能 选中 这 些 错 误 分 类 的 实例 并 再 次 进行 训练 。 数 据 集 里 不 能 很 好 适 配 的 实 
例 也 由 这 些 权重 来 鉴别 ， 另 一 个 角度 来 看 ， 这 些 记录 是 上 一 个 模型 的 不 足 之 处 ， 后 续 的 模 
型 尽力 克服 这 些 缺 点 。 

梯度 提升 法 采用 梯度 而 不 是 权重 来 鉴别 缺陷 ， 我 们 来 快速 浏览 一 下 它 如 何 用 梯度 改善 
模型 效果 。 


以 一 个 简单 的 回归 问题 为 例 ， 我 们 给 定 所 需 的 预测 器 变量 X 和 反应 变量 7， 这 二 者 都 

















































































































































































































X={X1, x»... xy) and 大 (71，7，，yN} 
梯度 提升 法 执行 步骤 如 下 。 
先 从 简单 的 模型 开始 ， 例 如 平均 值 。 








N 


Sede 
Ye 2 


预测 值 简单 地 设置 为 反应 变量 的 平均 值 。 
接着 开始 调整 残 差 ， 残 差 就 是 真实 值 y 和 预测 值 了 之 间 的 差 。 
































Rizy-$ 
下 一 个 分 类 器 在 如 下 的 数据 上 进行 训练 。 
{œo Rib (Xa Rn) ..., (Xnw, Rin)} 

随后 的 模型 在 前 一 个 模型 的 残 差 上 进行 训练 ， 就 这 样 ， 算 法 持续 地 在 集成 中 构建 所 需 
数量 的 模型 。 

现在 来 探究 为 什么 要 在 残 差 上 进行 训练 。 目 前 为 止 ， 我 们 请 楚 提 升 法 创造 了 渐进 的 模 
型 ， 假 设 我 们 构建 两 个 模型 FQ X) 和 FS OO 来 预测 页， 依据 渐进 的 原则 ， 可 以 把 两 个 
模型 组 合成 如 下 形式 。 
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F(X} FXX)- Y, 
也 就 是 说 ， 将 两 个 模型 的 预测 值 组 合 起 来 得 到 预测 值 Y 
可 以 推导 出 等 价 的 公式 。 























PCO= Yi-F(X) 
Y,-F BUR 2S 
残 差 是 模型 没有 处 理 完 善 的 部 分 ， 简 言 之 ， 就 是 上 一 个 模型 的 缺陷 。 因 此 ， 我 们 可 以 
利用 残 差 来 提升 模型 效果 ， 也 即 改善 上 一 个 模型 的 缺陷 。 讨 论 了 这 么 多 ， 你 可 能 会 奇怪 为 
什么 这 种 方法 称 为 梯度 提升 ， 而 不 是 残 差 提升 呢 ? 


给 定 一 个 可 微分 的 函数 ， 梯 度 就 是 这 个 函数 在 某 个 值 处 的 一 阶 导 数 。 以 回归 为 例 ， 它 
的 目标 函数 如 下 。 
























































xO 一 FGo)2) 


























这 里 FQ) 是 回归 模型 。 

线性 回归 问题 是 将 上 式 的 值 最 小 化 ， 找 出 这 个 函数 在 Foo) 处 的 一 阶 导 数 ， 并 把 权重 的 
系数 更 改 为 导数 值 的 负 值 ， 我 们 就 在 搜索 空间 上 接近 了 极 小 解 。 上 面 代价 函数 关于 F(x) 的 
一 阶 导数 是 FQ)-y;， 访 问 以 下 链接 对 导数 进行 了 解 ， 请 参见 : 

https://en.wikipedia.org/wiki/Gradient descent. 

F(x)-yo WERE, ERA y -F(x) 的 相反 数 ， 因 此 这 个 方法 称 为 梯度 提升 法 。 


8.4.1 ”准备 工作 


本 节 使 用 Boston 数据 集 来 演示 梯度 提升 法 ， 它 有 13 个 属性 和 506 个 实例 。 目 标 变量 
是 一 个 实数 值 以 及 数 以 千 记 房屋 的 中 位 价值 。 可 以 从 以 下 地 址 下 载 这 个 数据 集 ， 请 参见 : 


https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.names。 


我 们 准备 生成 二 阶 的 多 项 式 特征 ， 并 只 考虑 相互 影响 作用 。 
8.4.2 ”操作 方法 


先 加 载 必需 的 库 ， 随 后 定义 get data O 函数 ， 用 它 给 本 节 所 有 内 容 提供 数据 集 。 
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# 加 载 库 

from sklearn.datasets import load boston 

from sklearn.cross validation import train test split 
from sklearn.ensemble import GradientBoostingRegressor 
from sklearn.metrics import mean squared error 


from sklearn.preprocessing import PolynomialFeatures 
import numpy as np 
import matplotlib.pyplot as plt 


def get data(): 
nono" 
Return boston dataset 
as x - predictor and 
y - response variable 
non ow 
data = load boston() 
x — data['data'] 
y = data['target'] 
return x,y 

def build model(x,y,n estimators-500): 


Wm 


Build a Gradient Boost regression model 

non ow 

model = GradientBoostingRegressor (n estimators-n \ 
estimators, verbose=10,\ 

subsample-0.7, learning_rate= 0.15,max depth-3,random \ 

state-77) 

model.fit(x,y) 

return model 


def view model (model): 


mn 





Wm 


print "Xn Training scores" 

print " Mn" 

for i,score in enumerate(model.train score ): 
print "NtEstimator $d score $0.3f"$(i*1,score) 














plt.cla() 

plt.figure(1) 

plt.plot(range(1,model.estimators .shape[0]*1),model.train score ) 
plt.xlabel("Model Sequence") 

plt.ylabel("Model Score") 

plt.show() 








print "Xn Feature Importance" 
print " Xn" 
for i,score in enumerate(model.feature importances ): 
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print "\tFeature $d Importance $0.3f"£(i-*1,score) 


def model worth(true y,predicted y): 


LER 


Evaluate the model 


mn nm 





print "NtMean squared error = %0.2f"% (mean squared \ 
error(true y,predicted y)) 


zum. yk 


if name == main_": 





x,y = get data() 


# 将 数据 集 划 分 为 训练 集 、gev 集 和 测试 集 


x train,x test all,y train,y test all = train test split(x,y,test 


size = 0.3,random state-9) 
x dev,x test,y dev,y test = train test split(x test all,y test ^ 
all,test size-0.3,random state-9) 














# 准备 一 些 多 项 式 特征 

poly features = PolynomialFeatures (2,interaction only=True) 
poly features.fit(x train) 

x train poly = poly features.transform(x train) 

x dev poly = poly features.transform(x dev) 


# 用 多 项 式 特征 建 模 


model poly = build model (x train poly,y train) 








predicted y = model poly.predict (x train poly) 

print "Xn Model Performance in Training set (Polynomial 
features) \n" 

model worth(y train,predicted y) 


# 查看 模型 的 细节 


view model (model poly) 


# 把 模型 应 用 到 dev € LE 
predicted y = model poly.predict(x dev poly) 





print "Xn Model Performance in Dev set (Polynomial features) n" 


model worth(y dev,predicted y) 


# 把 模型 应 用 到 测试 集 上 
x test poly = poly features.transform(x test) 
predicted y = model poly.predict(x test poly) 
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print "Xn Model Performance in Test set (Polynomial features) \n" 
model worth(y test,predicted y) 





接着 编写 3 个 函数 。 
bulid model 函数 实现 了 梯度 提升 的 算法 。 
接着 的 两 个 函数 view_model 和 model worth 用 来 评估 生成 的 模型 。 




































































def build model (x,y,n estimators-500): 


mn 


Build a Gradient Boost regression model 

"nn 

model = GradientBoostingRegressor (n estimators-n \ 
estimators,verbose-10,N 

subsample-0.7, learning rate- 0.15,max depth-3,random \ 

state-77) 

model.fit(x,y) 

return model 


def view model (model): 


mn 





Wm 


print "Xn Training scores" 








print " Mn" 





for i,score in enumerate(model.train score ): 
print "NtEstimator $d score $0.3f"$(i*1,score) 





plt.cla() 

plt.figure(1) 

plt.plot(range(1,model.estimators .shape[0]*1),model.train score ) 
plt.xlabel("Model Sequence") 

plt.ylabel("Model Score") 

plt.show() 








print "Xn Feature Importance" 








print " Nn" 








for i,score in enumerate(model.feature importances ): 
print "NtFeature $d Importance $0.3f"£(i-*1,score) 


def model worth(true y,predicted y): 


Wm 


Evaluate the model 


mn 





print "NtMean squared error = %0.2f"% (mean squared \ 
error(true y,predicted y)) 


84 理解 集成 一 梯度 提升 ”325 


























最 后 编写 main 函数 ， 用 它 调用 之 前 的 所 有 函数 。 




















m i 


if name == main_": 





x,y = get data() 


# 将 数据 集 划 分 为 训练 集 、dev 集 和 测试 集 

x train,x test all,y train,y test all - train test split(x,y,test 
size = 0.3,random state-9) 

x dev,x test,y dev,y test - train test split(x test all,y test 
all,test size-0.3,random state-9) 














# 准 备 一 些 多 项 式 特征 

poly features = PolynomialFeatures (2,interaction only-True) 
poly features.fit(x train) 

x train poly - poly features.transform(x train) 

x dev poly = poly features.transform(x dev) 


# 用 多 项 式 特征 建 模 

model poly = build model (x train poly,y train) 

predicted y = model poly.predict(x train poly) 

print "Xn Model Performance in Training set (Polynomial 
features) Mn" 

model worth(y train,predicted y) 








# 查看 模型 的 细节 


view model (model poly) 


# 把 模型 应 用 到 dev 集 上 
predicted y = model poly.predict (x dev poly) 
print "Xn Model Performance in Dev set (Polynomial features) n" 


model worth(y dev,predicted y) 





# 把 模型 应 用 到 测试 集 上 
x test poly = poly features.transform(x test) 
predicted y = model poly.predict(x test poly) 





print "Xn Model Performance in Test set (Polynomial features) \n" 
model worth(y test,predicted y) 


84.3 ”工作 原理 
我 们 从 主 模块 开始 ， 先 用 get data 函数 加 载 预测 器 x MVEA 


























四 
K 
o 





def get data(): 


Wm 


Return boston dataset 
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数据 


和 测 


属性 被 创建 ， 假 定 维度 是 2，x1 和 x2 的 平方 并 没有 被 创建 
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as x - predictor and 
y - response variable 
"nn 

data = load boston() 

x = data['data'] 

y = data['target'] 


return x,y 








这 个 函数 调用 了 scikit-learn 里 的 1oad boston () 函数 ， 它 将 Boston 房屋 价格 
集 转 换 为 NumPy 数组 。 

接着 我 们 用 scikit-learn 库 里 的 train test split 函数 把 数据 集 划 分 为 训练 集 
试 集 ， 其 中 30% 用 来 做 测试 集 。 


















































x train,x test all,y train,y test all = \ 
train test split(x,y,test size - 0.3,random state-9) 





下 面 的 一 行 代码 又 从 那 30% 中 划分 了 一 部 分 出 来 作为 dev R 











o 











x dev,x test,y dev,y test = train test split(x test all,y test ^ 


all,test size-0.3,random state-9) 














接着 用 下 面 的 代码 构建 多 项 式 特征 





o 














poly features = PolynomialFeatures (interaction only-True) 


poly features.fit(x train) 























如 你 所 见 ，interaction only 被 设置 为 True, 此 时 , 对 于 xl 8x2, Hf xi*x2 
EE。 默认 维度 也 是 2. 























x train poly = poly features.transform(x train) 





x dev poly = poly features.transform(x dev) 





x test poly = poly features.transform(x test) 








fi transform 函数 , 我 们 可 以 将 训练 集 、dev 集 和 测试 集 都 转换 为 包含 多 项 式 特征 
接 下 来 就 开始 构建 模型 。 


# 采用 多 项 式 特征 建 模 
model poly = build model (x train poly,y train) 





o 








f£ build models 方法 的 内 部 ，GradientBoostingRegressor 类 的 初始 化 代码 如 下 。 
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model = GradientBoostingRegressor (n estimators-n \ 
estimators,verbose-10,^ 
subsample-0.7, learning rate- 0.15,max depth-3,random \ 
state-77) 





来 看 下 各 个 参数 : 第 1 个 是 集成 里 的 模型 数量 ; 第 2 个 参数 verbose， 当 它 被 设 为 大 
于 1 时 ， 每 个 模型 或 者 树 构 建 时 都 把 进展 情况 打印 出 来 ， 接 下 来 的 参数 subsample 指定 
了 模型 要 采用 的 训练 集 数据 量 的 百分比 ， 本 实例 中 是 70%; 再 下 一 个 参数 是 学 习 率 ， 这 是 
一 个 缩减 参数 ， 用 来 控制 每 棵 树 的 贡献 ， 再 下 一 个 参数 Max depth 决定 了 构建 的 树 的 大 
/N random state 参数 是 随机 数 生成 器 的 种 子 ， 为 了 在 多 次 不 同 的 运行 中 保持 一 致 性 ， 
我 们 把 它 设 置 为 一 个 整数 值 。 
因为 verbose 参数 值 大 于 1， 所 以 在 适 配 模 型 时 , 我 们 能 在 屏幕 上 看 到 每 个 模型 迭代 
过 程 的 结果 ， 如 图 8-11 所 示 。 


Train Loss 008 Improve Remaining Time 
58.5196 20.8748 2.495 
45.2833 10.3732 1.99s 
40.1522 8.8467 1.82s 
27.7772 8.2210 1.86s 
27.6316 3.9991 1.785 
21.0990 4.0621 1.73s 
17.5833 2.5910 1.76s 
15.1718 2.3592 1.78s 
11.9584 2.0957 1.75s 
10.1687 1.4597 1.72s 

9.5268 0.8509 1.73s 
7.2505 0.6745 1.75s 
6.5691 0.5004 1.76s 
6.3947 0.2710 1.77s 
5.9843 0.2344 1.75s 
5.4427 0.1878 1.78s 
4.4250 0.4125 1.79s 
4.4652 0.0001 1.79s 
4.4287 -0.1490 1.80s 
4.4158 0.1507 1.805 
3.8329 0.0701 1.80s 
3.9870 -0.0092 1.78s 
3.4025 -0.1266 1.80s 
3.7361 -0.0166 1.78s 
3.5310 09.0589 1.79s 



































(0 0) MO Ud UN 














图 8-11 


如 你 所 见 ， 每 次 迭代 训练 的 损失 都 有 所 下 降 。 第 4 列 是 袋 外 改进 分 数 〈 袋 子 以 外 的 数 
据 在 这 个 分 支 训 练 结 果 上 的 验证 结果 )。 我 们 用 subsample 参数 仅 选 择 了 70% 的 数据 ， 
OOB 分 数 是 用 另外 的 30% 数 据 计算 出 来 的 。 这 里 还 与 上 一 个 模型 比较 了 损失 的 改善 情况 。 
例如 ， 第 2 次 迭代 时 ， 和 第 1 次 相 比 ， 我 们 有 10.32 的 改善 。 


我 们 接着 来 看 下 训练 集 上 的 整体 效果 如 何 。 
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predicted y = model poly.predict(x train poly) 
print "Xn Model Performance in Training set (Polynomial ^ 





features) Mn" 
model worth(y train,predicted y) 











如 图 8-12 所 示 ， 提 升 法 集成 对 训练 集 适 配 的 效果 十 分 良好 。 
model worth 函数 打印 出 模型 的 更 多 细节 ， 如 图 8-13 所 示 。 





Training scores 


Estimator 
Estimator 
Estimator 
Estimator 
Estimator 
Estimator 
Estimator 
Estimator 
Estimator 
Estimator 10 
Estimator 11 
Estimator 12 
Estimator 13 
Estimator 14 
Estimator 15 


Model Performance in Training set (Polynomial features) 


Mean squared error = 0.00 











图 8-12 图 8-13 


和 之 前 详细 输出 结果 一 样 ， 每 个 不 同 模型 的 分 数 都 展示 出 来 了 ， 这 些 都 保存 在 模型 对 
象 的 一 个 属性 中 ， 可 以 用 以 下 代码 进行 检索 。 




















print "An Training scores" 








print " An" 
for i,score in enumerate(model.train score ): 








print "NtEstimator $d score £$0.3f"$(i*l,score) 


我 们 可 以 绘制 出 它们 的 图 形 ， 代 码 如 下 。 





plt.cla() 

plt.figure(1) 

plt.plot(range(1,model.estimators .shape[0]-*1),model.train score ) 
plt.xlabel("Model Sequence") 

plt.ylabel("Model Score") 

plt.show() 











x 轴 代 表 模 型 的 数量 ，y 轴 显 示 训 练 的 分 数 。 记 住 ， 提 升 法 是 一 系列 的 过 程 ， 每 个 模型 
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都 是 对 前 一 个 模型 的 提高 。 
如 图 8-14 所 示 ， 均 方 误差 ， 也 就 是 模型 的 分 数 随 着 模型 数 持续 增加 而 不 断 降低 。 
最 后 ， 我 们 还 能 查看 与 每 个 特征 关联 的 重要 性 指标 。 








print "Xn Feature Importance" 








print " Mn" 
for i,score in enumerate(model.feature importances ): 





print "\tFeature $d Importance %0.3f"%(i+1, score) 





下 面 来 看 看 特征 之 间 的 相互 关系 是 怎样 的 ， 如 图 8-15 所 示 。 


Feature Importance 


Feature 1 Importance 6.000 
Feature 2 Importance 
Feature 3 Importance 
Feature 4 Importance 
Feature 5 Importance 
Feature Importance 
Feature Importance 
Feature 8 Importance 
Feature Importance 
Feature Importance 0.000 
Feature Importance 0.005 
Feature Importance 0.003 
Feature Importance 0.021 
Feature Importance 0.010 
Feature Importance 0.005 
Feature Importance 0.012 
Feature Importance 80.001 
Feature Importance 0.011 
Feature Importance 0.018 
Feature Importance 0.011 
Feature Importance 0.020 
Feature Importance 8.007 
Feature Importance 0.005 
200 300 Feature Importance 8.006 
Model Sequence Feature Importance 8.019 


9955592929 
25288213 














图 8-14 图 8-15 


梯度 提升 法 把 特征 选择 和 模型 构建 都 统一 成 一 个 单独 的 操作 ， 它 能 自然 地 发 现 特征 之 
间 的 非 线 性 关系 。 下 面 的 论文 讲述 了 如 何 用 梯度 提升 法 进行 特征 选择 。 

Zhixiang Xu, Gao Huang, Kilian Q. Weinberger 和 Alice X. Zheng 等 人 所 著 的 《Gradient 
boosted feature selection), 58 20 届 ACM SIGKDD 国际 会 议 的 论文 集 (美国 纽约 )， 第 522— 
531 页 。 


把 模型 应 用 到 dev 数据 上 看 看 效果 ， 结 果 如 图 8-16 所 示 。 


# 把 模型 应 用 到 dev 集 上 
predicted y = model poly.predict (x dev poly) 
print "Xn Model Performance in Dev set (Polynomial features) Vn" 
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model worth(y dev,predicted y) 


Model Performance in Dev set (Polynomial features) 
Mean squared error - 10.47 


图 8-16 














最 后 看 看 在 测试 集 上 的 效果 。 
如 图 8-17 所 示 ， 模 型 集成 在 测试 集 上 的 效果 比 dev 集 上 的 还 更 好 。 


Model Performance in Test set (Polynomial features) 
Mean squared error = 7.15 


图 8-17 





























84.4 更 多 内 容 
要 了 解 更 多 梯度 提升 的 知识 ， 请 参阅 以 下 论文 。 


Friedman, J. H. = (Greedy function approximation: a gradient boosting machine) (Annals of 


Statistics) (2001), $% 1189—1232 页 。 


本 节 里 ， 我 们 介绍 了 采用 平方 的 损失 函数 的 梯度 提升 法 ， 其 实 梯度 提升 法 应 该 被 视 为 
一 种 框架 而 不 单单 是 一 种 方法 ， 任 何 可 微分 的 函数 都 可 以 在 这 个 框架 中 使 用 。 用 户 选 择 的 
任何 学 习 方法 及 其 可 微分 的 损失 函数 都 能 在 梯度 提升 法 框架 中 使 用 。 

scikit-learn 为 分 类 提供 了 一 个 梯度 提升 的 方法 ， 名 字 叫 作 GradientBossting 
Classifier。 请 参阅 以 下 链接 : http://scikit-learn.org/stable/modules/generated/ sklearn.ensemble. 
































GradientBoostingClassifier.html。 
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第 8 章 “ 集 成 方法 ”中 8.2 节 “ 理 解 集成 一 一 挂 袋 法 ”中 模型 选择 和 评估 的 相关 内 容 。 
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在 这 一 章 中 ， 我 们 将 探讨 以 下 主题 。 
。 从 生长 树 到 生长 森林 一 一 随机 森林 
。 生长 超 随机 树 

。 生长 旋转 森林 

















9.1 简介 


















































本 章 我 们 会 介绍 更 多 基于 树 算 法 的 挂 袋 法 相关 内 容 。 由 于 具备 对 抗 噪音 的 健壮 性 和 解 
决 各 类 问题 的 广泛 能 力 ， 它 们 在 数据 科学 社区 里 被 广泛 使 用 。 
这 些 方法 之 所 以 赫赫 有 名 ， 是 因为 相 较 于 其 他 方法 ， 它 们 能 在 没有 数据 整理 的 情况 下 
获得 很 好 的 结果 ， 也 因为 在 软件 工程 师 手 中 ， 它 们 能 充当 黑箱 工具 。 
除了 以 上 所 述 的 好 处 ， 它 们 还 有 更 多 优点 。 
从 设计 原理 上 说 ， 挂 袋 法 天 然 就 能 很 好 地 并 行 化 ， 因 此 ， 这 些 方法 可 以 很 方便 地 应 用 
到 集群 环境 来 处 理 很 大 的 数据 集 。 
决策 树 算法 在 树 的 每 一 层 上 把 输入 数据 划分 为 多 个 区 域 ， 这 样 就 实现 了 隐 式 的 特征 选 
， 而 特征 选择 是 构建 良好 的 模型 最 重要 的 步骤 之 一 。 拥 有 隐 式 的 特征 选择 ， 决 策 树 相 比 
他 技术 更 有 优势 ， 因 此 ， 挂 袋 法 中 包含 决策 树 也 具有 这 个 优势 。 
决策 树 儿 乎 不 需要 对 数据 进行 准备 ， 例 如 不 需 考虑 如 何 对 属性 进行 缩放 ， 因 为 属性 的 
度量 对 于 决策 树 的 结构 疫 有 影响。 此 外 ， 缺 失 一 些 数据 不 影响 决策 树 ， 异 常 点 对 决策 树 的 
影响 也 微乎其微 。 
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在 之 前 的 一 些 章节 里 ， 我 们 曾 使 用 只 保留 相互 关联 成 分 的 多 项 式 特征 ， 在 树 的 集成 方 
法 里 ， 这 些 关联 已 经 做 好 准备 ， 我 们 不 需要 进行 显 式 的 特征 转换 来 获取 特征 关联 性 。 

当 输 入 数据 中 存在 非 线性 关系 时 ， 基 于 线性 回归 的 模型 都 会 失效 ， 这 一 点 我 们 在 介绍 
核 PCA 的 那 节 里 解释 过 ， 而 基于 树 的 算法 则 不 受 数据 中 非 线性 关系 的 影 
基于 树 的 方法 最 大 的 一 个 困扰 就 是 为 了 避免 过 拟 合 而 对 树 进行 剪 枝 的 难度 ， 对 于 潜在 
数据 中 的 噪声 ， 大 型 的 树 倾向 于 受 影响 ， 导 致 低 偏差 和 高 方差 。 不 过 ， 如 果 我 们 生成 大 量 
的 树 ， 最 终 的 预测 值 采 用 集成 里 所 有 树 产 生 的 输出 的 平均 值 ， 就 可 以 避免 方差 的 问题 。 

本 章 我 们 会 介绍 3 种 基于 树 的 集成 方法 。 

第 1 种 是 实施 随机 森林 解决 分 类 问题 ， 它 的 发 明 人 是 Leo Breiman， 这 是 一 种 集成 技术 ， 
在 内 部 采用 大 量 的 树 来 建 模 ， 以 解决 任何 回归 或 分 类 问题 。 

第 2 种 是 超 随机 树 ， 和 随机 森林 变化 不 大 的 一 种 算法 。 和 随机 森林 相 比 ， 它 引入 更 多 
随机 化 ， 可 以 更 高 效 地 解决 方差 问题 ， 此 外 ， 它 的 运算 复杂 度 也 略 有 降低 。 

最 后 一 种 是 旋转 森林 ， 前 面 所 述 的 两 种 方法 需要 集成 大 量 的 树 以 获得 良好 的 效果 ， 而 
旋转 森林 可 以 用 较 少 的 树 来 获取 相同 甚至 更 好 的 效果 。 此 外 ， 这 种 算法 的 作者 宣称 除了 用 
树 作为 潜在 的 评估 器 ， 还 可 以 用 任意 其 他 类 型 ， 从 这 个 角度 来 说 ， 它 和 梯度 提升 法 类 似 ， 
为 构建 集成 映射 了 一 种 新 的 框架 。 


9.2 从 生长 树 到 生长 森林 一 一 随机 森林 
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随机 森林 方法 会 构建 许多 相互 之 间 没 有 关联 的 树 〈 和 森林 )， 给 定 一 个 分 类 或 者 回归 问题 ， 
它 构建 许多 树 ， 最 终 的 预测 值 对 于 回归 问题 是 整个 森林 的 预测 值 的 平均 值 ， 对 于 分 类 则 是 
一 个 多 数 票 表决 。 

这 看 起 来 和 挂 袋 法 有 点 像 ， 随 机 森林 也 是 一 种 挂 袋 方法 ， 这 种 方法 的 基本 思路 是 利用 
大 量 的 噪声 评估 器 ， 用 平均 法 处 理 噪声 ， 这 样 减 小 最 终结 果 的 方差 。 训 练 集中 的 微小 噪声 
也 会 严重 影响 到 树 ， 因 此 ， 作 为 噪声 评估 器 ， 它 们 在 挂 袋 法 中 得 有 一 个 准则 。 

我 们 来 写 下 构建 随机 森林 的 步 又， 用 户 得 先 指 定 森 林 中 所 需要 的 树 的 数量 作为 参数 ， 
这 里 用 了 表示 。 

我 们 从 1 到 了 进行 迭代 ， 构 建 了 棵 树 。 


。 对 于 每 棵 树 ， 从 输入 数据 集中 自 举 大 小 为 刀 的 样本 。 
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。 对 输入 数据 适 配 一 棵 树 t: 

口 随机 选择 m 个 属性 。 
口 采用 预先 定义 好 的 标准 ， 选 择 一 个 最 佳 属性 用 来 作为 划分 变量 。 

D 将 数据 集 划 分 为 两 个 部 分 ， 记 住 , 树 天 然 就 是 二 元 划分 的 ， 在 树 的 每 一 层 
上 ， 输 入 数据 集 都 被 一 分 为 二 。 

口 “ 在 我 们 划分 的 数据 集 上 从 代 执行 上 面 的 3 个 步骤 。 

s 最 后 ， 返回 树 T. 

对 分 类 问题 的 新 实例 ， 要 做 出 一 个 预测 值 ， 需 要 在 7 中 的 所 有 树 里 做 多 数 票 表决 ， 对 
回归 问题 ， 我 们 取 了 里 每 个 1 树 返 回 的 值 的 平均 值 。 

之 前 提 到 过 ， 随 机 和 森林 构建 的 是 相互 间 没 有 关联 的 树 ， 我 们 来 看 看 为 何在 集成 的 这 么 
多 树 相 互 间 都 没有 关联 。 从 数据 集中 自 举 样 本 给 每 棵 树 ， 我 们 确信 数据 的 不 同 部 分 出 现在 
不 同 的 树 上 ， 这 样 每 棵 树 为 数据 集 的 不 同 特征 建 模 。 因 此 ， 我 们 要 坚持 集成 的 原则 往 潜在 
的 评估 器 中 引入 方差 。 不 过 ， 这 并 不 能 保证 在 不 同 树 之 间 完 全 没有 关联 。 在 进行 节点 划分 
的 时 候 ， 我 们 不 能 选择 所 有 的 属性 ， 而 是 随机 选择 一 个 属性 的 子 集 ， 这 样 ， 就 能 确保 任意 
树 之 间 没 有 相互 关联 。 

提升 法 里 集成 的 评估 器 是 弱 分 类 器 , 与 之 相 比 , 我 们 在 随机 森林 中 构建 最 大 深度 的 树 ， 
这 样 它们 可 以 很 好 适应 自 举 的 样本 ， 得 到 的 偏差 较 低 ， 后 果 是 引入 了 高 方差 。 不 过 ， 通 过 
构建 大 量 的 树 ， 使 用 平均 法 则 作为 最 后 的 预测 值 ， 我 们 有 和 希望 解决 方差 问题 。 

下 面 开 始 深入 介绍 随机 森林 。 


9.2.1 准备 工作 


本 节 会 先生 成 一 些 分 类 问题 的 数据 集 来 演示 随机 森林 算法 ， 我 们 使 用 Scikit-learn 
里 的 集成 模块 来 实现 随机 森林 。 


9.2.2 ”操作 方法 


先 加 载 必需 的 库 ， 然 后 使 用 sklearn.dataset 模块 里 的 make classification 
生成 训练 集 来 演示 随机 森林 。 
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from sklearn.datasets import make classification 


from sklearn.metrics import classification report, accuracy score 
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from sklearn.cross validation import train test split 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.grid search import RandomizedSearchCV 
from operator import itemgetter 


import numpy as np 


def get data(): 
"nn 
Make a sample classification dataset 
Returns : Independent variable y, dependent variable x 
"nn 
no features - 30 
redundant features - int(0.1*no features) 
informative features - int(0.6*no features) 
repeated features - int(0.1*no features) 
x,y = make classification(n samples-500,n features-no ^ 





features,flip y=0.03,\ 
n informative = informative features, n redundant = \ 





redundant features \ 
;n repeated = repeated features,random state-7) 





return x,y 























现在 我 们 编写 build forest 函数 来 构建 完全 生成 树 ， 并 评估 森林 的 效果 ， 然 后 编 
写 用 来 寻找 森林 所 需 的 最 优 参数 的 方法 。 


























def build forest(x,y,x dev,y dev): 


Wm 


Build a random forest of fully grown trees 

and evaluate performance 

"nn 

no trees - 100 

estimator - RandomForestClassifier(n estimators-no trees) 
estimator.fit(x,y) 


train predcited = estimator.predict (x) 
train score = accuracy score(y,train predcited) 





dev predicted = estimator.predict(x dev) 





dev score = accuracy score(y dev,dev predicted) 


print "Training Accuracy = $0.2f Dev Accuracy = $0.2f"$(train ^ 


Score,dev score) 


def search parameters(x,y,x dev,y dev): 


Wm 
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Search the parameters of random forest algorithm 


wr 


estimator = RandomForestClassifier() 


no features = x.shape[l] 
no iterations - 20 
sqr no features = int(np.sqrt(no features)) 
parameters = ("n estimators" : np.random.randint(75,200,no 
iterations),"criterion" : ["gini", "entropy"],N 
"max features" : [sqr no features,sqr no ^ 


features*2,sqr no features*3,sqr no features*10] } 


grid = RandomizedSearchCV (estimator-estimator,param \ 
distributions-parameters," 

verbose-1, n iter-no iterations,random state-77,n jobs--1,cv-5) 

grid.fit(x,y) 

print model worth(grid,x dev,y dev) 


return grid.best estimator 


def print model worth (grid,x dev,y dev): 
# 打印 出 模型 的 效果 评估 值 
# 取 最 好 的 前 5 个 模型 


Scores = sorted(grid.grid scores , key-itemgetter(1), \ 





reverse-True) [0:5] 





for model no,score in enumerate(scores): 


print "Model $d, Score = $0.3f"$(model no-*1,score.mean ^ 
validation score) 
print "Parameters = (0j".format(score.parameters) 
print 


dev predicted = grid.predict (x dev) 








print classification report(y dev,dev predicted) 





n 


最 后 编写 main 函数 ， 用 它 调用 之 前 的 所 有 函数 。 






































ba N 


if name == main_": 





x,y = get data() 


# 将 数据 划分 为 训练 集 、qev 集 和 测试 集 

x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 

x dev,x test,y dev,y test = train test split(x test all,y test ^ 














all,test size-0.3,random state-9) 


build forest(x train,y train,x dev,y dev) 
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model 


get feature importance (model) 





生长 树 


923 ”工作 原理 


我 们 从 主 模块 7 
内 部 ， 我 们 调 月 











def get data(): 


Wm 








开始 ， 先 用 get data 函数 返 
Hmake classification 数据 集 来 生成 随机 森林 的 训 


search parameters(x,y,x dev,y dev) 





H 











Make a sample classification dataset 


Returns : 


Independent variable y, dependent variable 
non ow 
no features - 30 
redundant features - int(0.1*no features) 
informative features - int(0.6*no features) 


repeated features - 





int(0.1*no features) 


预测 器 矩阵 x 和 反应 变量 向 量 Y， 在 其 

















| 练 数据 。 


X 


x,y = make classification(n samples-500,n features-no ^ 
features,flip y-0.03,^ 


n informative - informativ 


redundant features \ 


,n repeated = 








return x,y 


我 们 来 看 下 传递 给 make classification 函数 的 各 个 参数 。 





数量 ， 本 例 需 











生 Y 高 信 息 量 

AUR HIE 
我 们 

来 测试 。 























43€ 500 个 实例 。 
flip y， 要 求 随机 
了 从 30 个 特征 
也 就 是 30 个 特征 











选择 具有 


























量 特征 的 线性 


























互 换 实例 的 3%， 这 是 为 了 在 数据 中 产生 


I 


足够 的 信息 上 





的 18 个 应 该 是 高 信息 








JA. 


# 将 数据 划分 为 训练 集 、qev 集 和 测试 集 


x train,x test all,y train,y test all 
0.3,random state-9) 


size 














接着 























了 次 调用 train 


test split PS 


昌 合 以 构成 特征 之 间 的 关联 。 
中 随机 选择 的 各 


]train test split 函数 把 数据 划分 为 训练 集 和 测试 集 ， 保 留 








features, n redundant = \ 


repeated features,random state-7) 





第 1 个 是 所 需 的 实例 
第 2 个 是 每 个 实例 需要 的 属性 数量 ， 本 例 为 30。 第 3 个 参数 








些 噪音 。 











接 下 来 的 参数 指定 


来 进行 分 类 的 特征 个 数 ， 我 们 设 定 为 特征 的 60%， 








量 的 。 再 下 一 


个 参数 是 关于 宛 余 


参数 的 ， 它 们 产 























最 后 ， 重 复 特 和 

















函数 把 测试 集 数据 划分 为 dev 


F 是 从 高 信息 量 特 4 





























30% 的 数据 


€ 
n 


train test split(x,y,test ^ 


B 


集 和 测试 集 。 





all,test size-0.3,random state-9) 
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x dev,x test,y dev,y test = train test split(x test all,y test ^ 


























有 了 建 模 、 评 估 和 测试 所 需 的 数据 ， 我 们 接着 开始 建 模 。 


build forest(x train,y train,x dev,y dev) 











数 的 内 部 。 


scikit-learn 里 的 RandomForestClassifier 


把 所 需 的 树 的 数量 作为 参数 传递 ， 然 后 开始 适 配 模型 。 
现在 看 看 模型 在 训练 集 和 dev 数据 上 的 精度 得 分 ， 如 图 
Training Accuracy = 1.00 Dev Accuracy = 8.83 


no trees - 100 


我 们 用 build forest 函数 在 训练 集 和 dev 数据 上 构建 随机 森林 模型 ， 来 看 看 这 个 函 





estimator = RandomForestClassifier(n estimators-no trees) 


estimator.fit(x,y) 


train predcited = estimator.predict (x) 
train score - accuracy score(y,train predcited) 





dev predicted = estimator.predict(x dev) 





dev score = accuracy score(y dev,dev predicted) 


print "Training Accuracy = $0.2f Dev Accuracy 


Score,dev score) 




















9-1 所 示 。 











图 9-1 

















， 请 参 


$0.2f£"$(train \ 





集成 需要 100 棵 树 ， 因 此 我 们 用 变量 no trees 来 定义 树 的 数量 ， 并 全 面 用 
类 进行 检查 和 应 用 。 


























如 你 所 见 ， 我 们 

















不 错 ! dev 集 上 的 精度 是 83%, 我 们 看 看 能 个 外 上 再 有 所 提高 ， 森 林 还 有 一 些 其 他 参数 
可 以 用 来 调 优 以 获得 更 好 的 模型 效果 。 这 些 可 以 调 优 的 参数 列表 





参见 : http://scikit-learn. 


org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html 。 


优 ， 




































































] GridSearchCv 来 搜索 参数 空 
会 执行 非常 详尽 的 搜索 。 不 过 ， 本 节 要 用 的 是 RandomizedSearchCV， ATA SUR 


我 们 可 以 在 训练 集 和 dev 数据 上 调用 search parameters 
以 提高 随机 森林 模型 的 效果 。 


在 前 面 的 一 些 章节 里 ， 我 们 使 





函数 对 一 些 参数 进行 调 


x 间 以 找 出 最 佳 参数 组 合 


u 了 参数 值 分 布 ， 并 指定 所 需 的 迭代 次 数 ， 对 于 每 次 迭代 ，RandomizedSearchCV 会 从 参 
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数 分 布 中 选择 一 个 样本 值 并 用 它们 适 配 模型 。 


























parameters = ("n estimators" : np.random.randint(75,200,no 
iterations), 

"criterion" : ["gini", "entropy"], 

"max features" : [sqr no features,sqr no features*2,sqr no 
features*3,sqr no features-*10] 


) 





和 GridsSearchcv 一 样 ， 我 们 提供 了 一 个 参数 的 字典 ， 本 例 要 尝试 3 个 参数 。 


第 1 个 是 模型 里 树 的 数量 ， 用 n_estimators 参数 表示 ， 通 过 调用 randint 函数 ， 
我 们 得 到 一 个 介 于 75 到 200 之 间 的 整数 列表 ， 树 的 大 小 由 参数 no iterations 定义 。 




































































no_iterations = 20 




















这 个 参数 要 传 给 RandomizedSearchCV， 用 来 指定 要 执行 的 迭代 次 数 ， 
RandomizedSearchCV 在 每 一 次 迭代 中 从 这 个 数组 的 20 个 元 素 里 采样 一 个 单独 的 数值 。 

下 一 个 参数 是 criterion， 我 们 随机 在 基尼 系数 和 焙 里 选择 ， 并 用 它 作 为 标准 在 每 
次 迭代 中 划分 节点 

最 重要 的 参数 max features 定义 了 算法 在 每 个 节点 进行 划分 时 选择 的 特征 数量 ， 
在 前 面 描述 随机 森林 的 伪 代 码 里 ， 我 们 曾 指 出 要 在 每 次 划分 节点 时 随机 选择 m 个 属性 ， 这 
个 m 就 由 max features 定义 。 这 里 我 们 给 出 4 个 值 的 列表 ,变量 sqr no features 
是 输入 数据 集 里 可 用 属性 属性 的 平方 根 。 






























































































































































sqr no features = int(np.sqrt(no features)) 




















列表 中 的 其 他 值 是 平方 根 的 一 些 变形 量 。 


我 们 把 RandomizedSearchcv 的 参数 分 布展 示 一 下 。 


图 





grid = RandomizedSearchCV (estimator-estimator,param \ 
distributions-parameters,N 
verbose-1, n iter-no iterations,random state-77,n jobs--1,cv-5) 



































第 1 个 参数 是 我 们 要 进行 优化 的 湾 在 评估 器 ， 这 里 是 RandomForestClassifier. 








estimator = RandomForestClassifier() 


A 


第 2 个 参数 param distributions Æ H FRSE XR. Sue X f XSIITI 
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数量 ， 就 是 用 参数 n_iter 运行 RandomForestClassifier 的 次 数 。 本 例 中 ， 我 们 用 
cv 参数 定义 了 需要 进行 的 交叉 验证 次 数 为 5 次 。 
接着 进行 模型 适 配 ， 我 们 看 看 模型 的 运行 情况 。 


grid.fit(x,y) 


























print model worth (grid,x dev,y dev) 
如 图 9-2 所 示 ， 我 们 有 5 份 ， 也 就 是 在 每 次 迭代 时 要 进行 5 份 交 义 验证 。 一 共有 20 次 
迭代 ， 因 此 ， 我 们 构建 的 模型 有 100 个。 


Fitting 5 folds for each of 20 candidates, totalling 100 fits 


图 9-2 



































现在 来 看 看 函数 print model worth 的 内 部 ， 我 们 把 网 格 对 象 和 dev 数据 集 传递 
给 它 ， 网 格 对 象 用 grid scpres oftype 属性 来 存放 每 个 所 建 模 型 的 评估 指标 ， 我 们 把 
列表 按 降 序 排 列 来 看 看 最 好 的 模型 效果 。 


























Scores = sorted(grid.grid scores , key-itemgetter(1), reverse-True)[0:5] 


我 们 从 索引 里 选择 前 5 的 模型 来 查看 ， 把 它们 的 细节 打印 输出 








o 


for model no,score in enumerate(scores): 





print "Model $d, Score = $0.3f"£$(model no-*1,score.mean ^ 
validation score) 

print "Parameters = (0j".format(score.parameters) 

print 


我 们 先 输出 评 佑 分数， 接着 是 模型 的 参数 ， 如 图 9-3 所 示 。 


Model 1, Score = 0.864 

Parameters = ('max features': 5, 'n estimators': 197, 'criterion': 
'entropy'] 

Model 2, Score = 0.856 

Parameters = ('max features': 5, 'n estimators': 182, 'criterion': 
'gini') 

Model 3, Score = 0.848 

Parameters = ('max features': 15, 'n estimators': 118, 'criterion': 
'gini'] 

Model 4, Score - 0.846 

Parameters = ('max features': 5, 'n estimators': 186, 'criterion': 
'entropy') 

Model 5, Score = 0.846 

Parameters = ('max features': 5, 'n estimators': 177, 'criterion': 
'gini') 














图 9-3 
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用 分 数 对 
些 参数 作为 模 


现在 使 用 这 些 





HR? 











dev_predicted = 





数 ， 属 性 best estimator 则 返回 


参数 在 dev 数据 上 进行 测试 。 





进行 降序 排列 ， 这 样 可 以 在 最 前 面 展 示 最 好 的 模型 参数 。 我 们 将 选用 











使 


grid.predict (x dev) 








Jj 











LE 


j 这 些 参数 的 模型 。 


print classification report(y dev,dev predicted) 

















上 面 这 个 函数 内 部 调用 了 best estimtor. 




















oy 


非常 棒 ! 如 图 9-4 所 示 ， 我 们 构建 了 一 个 完美 的 模型 ， 分 类 精度 达到 了 100%。 
precision recall fi-score support 
e 1.00 1.00 1.00 51 
1 1.00 1.00 1.00 54 
avg / total 1.00 1.00 1.00 105 
图 9-4 


9.2.4 更 多 内 容 


RandomForestClassifier 在 内 部 使 用 了 DecisionTreeClassifier， 下 


























链接 解释 了 所 传递 的 用 来 构建 决策 树 的 所 有 参数 ， 请 参见 : 


http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html 。 


这 里 有 一 个 有 趣 的 参数 splitter. €h 
基于 max_ features 属性 在 内 部 选择 划分 机 











* best: A max features 参数 定义 


random: 随机 选择 一 个 用 来 划分 的 属 ! 


e. 
你 可 能 注意 到 这 个 参数 在 实 
的 办 法 只 有 一 个 ， 就 是 给 max f 
在 工业 界 ， 随 机 森林 被 广泛 
用 基尼 不 纯度 来 进行 计算 。 基 















































pen 


T 





属性 集合 





























侈 化 RandomForestClassifier 时 并 不 可 用 
eatures 参数 的 值 要 小 于 数据 集 里 可 | 


频 用 于 变量 选择 。 在 scikit-learn H 











RE 











的 默认 值 被 设 为 best， 算 法 执行 的 时 候 ， 会 
上 1， 可 用 的 机 制 有 以 下 几 种 。 


选择 最 大 可 能 划分 ; 


控制 





要 


~ 





























j 的 属 








性 数量 。 





























已 和 烂 这 两 种 标准 用 来 在 划分 节点 时 鉴别 最 佳 的 


EE， 变 量 的 重要 性 





充分 利用 它们 用 高 不 纯度 将 数据 集 划 分 为 子 集 的 能 力 ， 这 样 后 续 的 划分 可 以 产生 良好 的 

















分 类 效果 。 一 个 变量 的 重要 性 是 由 











其 引入 到 划分 数据 集 的 不 纯度 数量 决定 的 ， 参 








Bg EA PB 


籍 可 以 了 解 更 多 细节 ， 请 参见 : Breiman 和 Friedman 3#, (Classification and regression trees); 


1984 年 。 
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zm 





我 们 可 以 写 一 个 小 函数 来 输出 重要 性 特征 。 








def get feature importance (model): 





feature importance = model.feature importances 


fm with id = [(i,importance) for i,importance in \ 





numerate (feature importance)] 
fm with id = sorted(fm with id, key-itemgetter(1),reverse-True)[0:10] 
print "Top 10 Features" 





for importance in fm with id: 


print "Feature $d importance = $0.3f"$(importance[0],importan'N 
ce[1]) 


print 














随机 森林 对 象 里 有 个 叫做 feature importances 的 变量 ,我 们 可 以 用 它 创建 一 个 
保存 特征 数量 和 重要 性 的 元 组 的 列表 。 



































feature importance = model.feature importances 


fm with id = [(i,importance) for i,importance in \ 





numerate (feature importance)] 


现在 把 变量 的 重要 性 降序 排列 ， 选 择 前 10 个 特征 











o 


fm with id = sorted(fm with id, key-itemgetter(1),reverse-True) [0:10] 





接着 把 这 10 个 特征 打印 出 来 ， 如 图 9-5 所 示 。 








Top 10 Features 






































随机 森林 另 一 个 有 趣 的 方面 是 袋 外 评估 Coutof-Bag | Feature 16 importance = 0.086 
Feature 17 importance = 60.074 

estimation，OOB )。 记 住 ， 为 了 森林 里 生成 的 每 棵 树 ， 我 ”| Feature 19 importance = e.ese 
Feature 24 importance = 0.049 
们 在 初始 化 时 自 举 了 一 些 数据 , 正 因 如 此 , 一 些 记 录 不 会 | Feature 27 importance = 0.049 
igs Feature 10 importance = 0.045 

出 现在 一 些 树 中 。 假 定 记录 1 在 森林 的 100 BEBEHLGE], | Feature 0 importance = 0.042 











在 另外 150 棵 树 里 没有 使 用 , 我 们 可 以 用 这 150 棵 树 给 这 | ceature 3 ieportance - 9038 
条 记录 预测 类 别 标签 ， 这 样 就 能 算出 这 条 记录 的 分 类 错 | Feature 11 importance = 0.038 
误 。 袋 外 评估 能 高 效 地 评估 森林 的 质量 ,下 面 的 链接 给 出 "T 
了 一 个 如 何 高 效 使 用 OOB 的 例子 ， 请 参见 : http://scikit- 


learn.org/dev/auto examples/ensemble/plot ensemble oob.html. 



































scikit-learn Œ ff) RandomForestClassifier 类 来 源 于 ForestClassifier, 它们 的 源 代 码 请 参见 : 
https://github.com/scikit-learn/scikit-learn/blob/a95203b/sklearn/ensemble/forest.pystL318 。 
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当 调 用 


























RandomForestClassifier 的 predict 方法 时 ， 其 内 部 调用 了 
ForestClassifier 的 predict proba 方 法。 最 终 的 预测 结果 不 是 基于 投票 ， 而 是 来 
自 森 林 里 不 同 树 产生 的 每 个 类 别 概率 的 平均 值 ， 最 终 基 于 最 高 的 概率 决 
















































































类 别 。 
可 以 从 以 下 链接 下 载 到 Leo Breiman 首创 的 随机 森林 方面 的 论文 ， 请 参见 : http://link. 
springer.com/article/10.1023%2FA9%3A1010933404324。 


你 也 可 以 参考 














H Leo Breiman 和 Adele Cutler 运 维 的 网 站 ， 地 址 如 下 : https://www.stat. 
berkeley.edu/ 一 breiman/RandomForests/cc_home.htm 。 


9.2.5 参考 资料 


























第 6 章 “ 机 器 学 习 1” 中 6.5 节 “ 构 建 决策 树 解 决 多 类 问题 ”的 相关 内 容 。 
第 8 章 “ 集 成 方法 ”中 8.4 节 “ 理 解 集成 一 一 梯度 提升 ”中 模型 选择 和 评估 的 相关 
内 容 。 
































第 8 章 “ 集 成 方法 ”1 






































8.2 节 “ 理 解 集成 


9.3 生成 超 随机 树 











挂 袋 法 ”中 模型 选择 和 评估 的 相关 内 容 。 











[s 








超 随 机 树 ， 也 叫 超 树 算法 , CME N 
1l. 它 不 用 自 



































的 随机 森林 
举 法 来 给 集成 的 每 棵 树 选择 实例 ， 而 是 使 

















的 不 同 之 处 在 于 以 下 两 个 方面 。 










































































j 完 整 的 训练 集 数据 。 








2. 给 定 K 作为 在 给 定 节点 随机 选择 的 属性 数量 ， 

上 一 节 提 到 ,随机 森林 在 两 处 使 

] 了 自 举 法 进行 选择 ， 

基于 其 基尼 不 纯度 或 者 箭 标准 。 超 随机 树 ; 
下 面 


的 论文 提出 了 超 随机 树 的 概念 。 














已 随机 选择 割 点 ， 不 考虑 目标 变量 。 
随机 化 ,第 1 处 是 在 选择 实例 来 训练 森林 里 的 树 时 ， 
第 2 处 是 在 每 个 节点 上 随机 选择 属性 的 集合 ， 每 个 被 选中 的 属性 是 
更 进一步 ， 完 全 随机 地 选择 用 来 划分 数据 的 属性 。 










































































































































































P. Geurts, D. Ernst. 和 L. Wehenkel, (Extremely randomized trees) (Machine Learning), 
63(1), 38 3 一 42 Xi, 2006 年 





这 篇 论文 指出 ， 除 了 之 前 提 到 的 技术 方面 ， 超 随机 树 还 在 以 下 两 个 方面 具有 优势 。 
其他 方法 的 弱 随 机 架构 ， 它 的 割 点 显 式 随 
F 均 都 可 以 用 来 更 好 地 降低 方差 。 























超 树 方法 背后 的 原理 是 这 样 的 ， 相 比 于 采用 
机 化 和 属性 组 合 的 总 人 































































































93 ”生成 超 随机 树 ”343 

















和 随机 森林 相 比 ， 超 随机 树 把 制 点 《在 每 个 节点 上 选择 用 来 划分 数据 集 的 属性 〉 的 随 





























机 化 组 合 起 来 ， 忽 略 任何 标准 ， 最 后 将 每 棵 树 的 结果 进行 平均 ， 这 样 在 未 知 的 数据 集 上 可 





以 得 到 非常 好 的 效果 。 
第 2 个 优势 与 计算 复杂 




















度 有 关 。 





从 计算 的 角度 来 看 ， 生 长 树 的 过 程 一 假定 是 平衡 树 ， 和 其 他 树 的 生长 过 程 一 样 ， 复 
杂 度 是 O(NlogN)， 和 采样 的 大 小 相关 。 然 而 ， 给 定 划分 节点 过 程 的 简单 程度 ， 我 们 期 望 






























































效率 上 要 高 的 多 。 





常数 因子 能 远 小 于 其 他 在 本 地 
因为 不 用 花费 时 间 来 鉴别 最 适合 用 来 划分 数据 集 的 属性 ， 这 个 方法 比 随机 森林 在 计算 











行 割 点 优化 的 集成 方法 。 
































我 们 来 写 下 构建 超 随 机 树 的 步 又， 用 户 得 先 指 定 森 林 中 所 需要 的 树 的 数量 作为 参数 ， 











这 里 用 了 表示 。 
我 们 从 工 到 了 执行 迭代 ， 


























也 就 是 构建 了 棵 树 。 


。 对 于 每 棵 树 ， 选 择 所 有 的 输入 数据 。 
。 对 输入 数据 适 配 一 棵 树 t。 














O 随机 选择 m 

















。 最 后 ， 返 回 树 7。 
下 面 来 了 解 超 随机 树 的 详 


9.3.. “准备 工作 


本 节 会 先生 成 一 些 分 类 问 
的 超 随机 树 集成 模块 来 进行 实 


9.32 ”操作 方法 
先 加 载 必需 的 库 ， 然 后 使 


























O 随机 选择 一 个 属性 用 来 作为 划分 变量 。 


口 “将 数据 集 划 分 为 两 个 部 分 ， 记 住 ， 树 天 然 就 是 二 元 划分 的 。 在 树 的 每 一 层 
上 ， 输 入 数据 集 都 被 一 分 为 二 。 


口 ERMD RAG R ERRAT EMA 3 个 步 又。 





个 属性 。 

















细 内 容 。 














题 的 数据 集 来 演示 超 随机 树 ， 我 们 使 用 Scikit-learn 里 
现 。 














用 sklearn.dataset 模块 里 的 make classification 
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生成 训练 集 。 


ny 





from sklearn.datasets import make classification 


from sklearn.metrics import classification report, accuracy score 


from sklearn.cross validation import train test split, cross val score 





from 


S 
S 
S 

from sklearn.ensemble import ExtraTreesClassifier 
Sklearn.grid search import RandomizedSearchCV 
O 


from operator import itemgetter 





def get data(): 
nono" 
Make a sample classification dataset 
Returns : Independent variable y, dependent variable x 
now 
no features - 30 
redundant features - int(0.1*no features) 
informative features - int(0.6*no features) 





repeated features - int(0.1*no features) 
x,y = make classification (n samples-500,n features-no ^ 
features, flip y=0.03,\ 


n informative = informative features, n redundant =\ 





redundant features,n repeated = repeated features,random state-7) 
return x,y 














现在 我 们 编写 build_forest 函数 来 构建 完全 生成 树 ， 并 评估 森林 的 效果 。 








def build forest(x,y,x dev,y dev): 


mn 





Build a Extremely random tress 
and evaluate peformance 


UEURI 


no_trees = 100 

estimator = ExtraTreesClassifier(n estimators-no trees,random \ 
state=51) 

estimator.fit (x,y) 





train predcited = estimator.predict (x) 
train score = accuracy score(y,train predcited) 





dev predicted = estimator.predict (x dev) 





dev score = accuracy score(y dev,dev predicted) 


print "Training Accuracy = $0.2f Dev Accuracy = $0.2f"$(train ^ 


Score,dev score) 


下 
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print "cross validated score" 


print cross val score(estimator,x dev,y dev,cv-5) 


def search parameters(x,y,x dev,y dev): 


UEURI 


Search the parameters 


"m 





estimator - ExtraTreesClassifier() 
no features = x.shape[l] 
no iterations - 20 


sqr no features - int(np.sqrt(no features)) 


parameters = ("n estimators" : np.random.randint(75,200,no 
iterations),"criterion" : ["gini", "entropy"], 
"max features" : [sqr no features,sqr no 


features*2,sqr no features*3,sqr no features+10] } 


grid = RandomizedSearchCV (estimator-estimator,param. 
distributions-parameters,N 

verbose-1, n iter-no iterations,random state-77,n jobs--1,cv-5) 

grid.fit(x,y) 

print model worth(grid,x dev,y dev) 


return grid.best estimator. 


























最 后 编写 main 函数 ， 用 它 调用 之 前 的 所 有 函数 。 

















Lf name == " main ": 





x,y = get data() 


# 将 数据 划分 为 训练 集 、dev 集 和 测试 集 
x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 








x dev,x test,y dev,y test = train test split(x test all,y test ^ 
all,test size-0.3,random state-9) 





build forest(x train,y train,x dev,y dev) 
model = search parameters (x,y,x dev,y dev) 


9.33 ”工作 原理 


我 们 从 主 模块 开始 ， 先 用 get data 函数 获取 预测 器 属性 和 反应 属性 ， 在 其 内 部 ， 我 
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们 调用 make classification 数据 各 





次 


来 生成 训练 数据 。 


def get data(): 
nw 
Make a sample classification dataset 


Returns : Independent variable y, dependent variable x 

"nn 

no features - 30 

redundant features - int(0.1*no features) 

informative features - int(0.6*no features) 

repeated features - int(0.1*no features) 

x,y = make classification (n samples-500,n features-no ^ 
features,flip y-0.03,^ 





n informative = informative features, n redundant =\ 
redundant features,n repeated = repeated features,random state-7) 
return X,y 











我 们 来 看 下 传递 给 make classification 函数 的 各 个 参数 。 第 1 个 是 所 需 的 实例 
数量 ， 本 例 需 要 500 个 实例 。 第 2 个 是 每 个 实例 需要 的 属性 数量 ， 本 例 为 30。 第 3 个 参数 
flip y， 要 求 随机 互 换 实例 的 3%， 这 是 为 了 在 数据 中 产生 一 些 噪音 。 接 下 来 的 参数 指定 
了 从 30 个 特征 中 选择 具有 足够 的 信息 量 来 进行 分 类 的 特征 个 数 ， 我 们 设 定 为 特征 的 60%, 
出 就 是 30 个 特征 中 的 18 个 应 该 是 高 信息 量 的 。 再 下 一 个 参数 是 关于 宛 余 参数 的 ， 它 们 产 
生 了 高 信息 量 特征 的 线性 组 合 以 构成 特征 之 间 的 关联 。 最 后 ， 重 复 特 征 是 从 高 信息 量 特征 
和 和 元 余 特征 中 随机 选择 的 副本 。 

我 们 用 train test split 函数 把 数据 划分 为 训练 集 和 测试 集 ， 保 留 30 多 的 数 
来 测试 。 




















a 








































































































四 | 




























































































IH 
i 





# 将 数据 划分 为 训练 集 、dev 集 和 测试 集 
x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 


























接着 再 次 调用 train test split MAGEN 





数据 划分 为 dev 集 和 测试 集 。 


rud 

















x dev,x test,y dev,y test = train test split(x test all,y test ^ 
all,test size-0.3,random state-9) 




















有 了 建 模 、 评 估 和 测试 所 需 的 数据 ， 我 们 接着 开始 建 模 。 











build forest(x train,y train,x dev,y dev) 





我 们 用 build forest 函数 在 训练 集 和 dev 数据 上 构建 超 随机 树 模型 ， 来 看 看 这 
函数 的 内 部 。 
no trees = 100 
estimator = ExtraTreesClassifier(n estimators-no trees,random \ 
state-51) 
estimator.fit(x,y) 
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train predcited = estimator.predict (x) 


train score - accuracy score(y,train predcited) 


dev predicted = estimator.predict (x dev) 








dev score - accuracy score(y dev,dev predicted) 





print "Training Accuracy = $0.2f Dev Accuracy = $0.2f"$(train ^ 


Score,dev score) 


print "cross 


validated score" 


print cross val score(estimator,x dev,y dev,cv-5) 


集成 需要 构建 100 





























个 


棵 树 ， 因 此 我 们 用 变量 no trees 来 定义 树 的 数量 ， 并 调用 


scikit-learn 里 的 ExtraTreesClassifier 类 。 如 你 所 见 ， 我 们 把 所 需 的 树 的 数量 














作为 参数 传递 ， 这 里 值得 注意 的 是 参数 bootstrap。 访 问 以 下 链接 可 以 了 解 








Classifier 的 参数 ， 请 参见 : 





ExtralTrees 


http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html。 











这 里 参数 bootstrap 被 设置 为 默认 值 False， 请 参阅 以 下 链接 将 其 























Ej 





RandomForestClassifier 的 参数 bootstrap 进行 比较 : httpz//scikit-learn.org/stable/ 


modules/generated/sklearn.ensemble.RandomForestClassifier.html 。 


之 前 解释 过 ， 和 森林 昌 
然后 开始 适 配 模型 ， 




















的 每 棵 树 都 使 用 所 有 记录 进行 训练 。 
代码 如 下 。 





train predcited = estimator.predict (x) 


接着 来 看 看 模型 在 训练 集 和 dev 数据 上 的 精度 评分 。 

















train score = accuracy score(y,train predcited) 





dev predicted - 


stimator.predict(x dev) 


dev score = accuracy score(y dev,dev predicted) 











我 们 把 训练 集 和 dev 数据 上 的 评分 情况 打印 出 来 ， 如 图 9-6 所 示 。 
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print "Training Accuracy - 


H 





长 树 


Score,dev score) 


现在 做 一 个 5 份 的 交叉 验证 来 看 看 模型 的 预测 结果 ， 结 果 如 图 9-7 所 示 。 


$0.2f Dev Accuracy 


$0.2£"$ (train ^ 


Training Accuracy = 1.00 Dev Accuracy = 0.84 


cross validated score 





多 











9-6 











[ 0.81818182 20.76190476 20.80952381 20.85714286 0.9 ] 
图 9-7 
相当 不 错 的 结果 ， 其 中 一 份 几 乎 得 到 了 90% 的 精度 。 我 们 可 以 月 





search parameters 函数 ， 打 印 
RandomizedSearchCV 的 解释 。 








Model 1, Score = 0.878 


Parameters - ('max features': 


'entropy'] 
Model 2, Score - 0.876 


Parameters - ('max features': 


'entropy'] 
Model 3, Score - 0.874 


Parameters - ('max features': 


'gini') 
Model 4, Score - 0.874 


Parameters - ('max features': 


'gini') 
Model 5, Score - 0.874 


Parameters - ('max features': 


'gini') 
precision 


e 1.00 
1 1.00 


1.00 


avg / total 








和 上 一 节 一 样 ， 我 们 用 分 数 给 模型 


型 参数 。 我 们 将 选用 这 些 参数 作为 模型 参数 ， 属 怕 


数 的 模型 。 








15， 


15， 


15, 


10, 


15, 


recall 


1.00 
1.00 


1.00 





区 














'n estimators': 


'n estimators': 


'n estimators 


'n estimators': 


'n estimators': 


f1-score 


1.00 
1.00 


1.00 


9-8 


123, 


7, 


': 195, 


195, 


127, 


support 


51 
54 





'criterion': 


'criterion': 


'criterion': 


'criterion': 


'criterion': 





随机 森林 里 所 做 的 一 
样 ， 在 参数 空间 上 做 一 个 随机 搜索 。 我 们 可 以 在 训练 集 和 dev 数据 上 调用 
HERI HE AER, un 9-8 所 示 ， 请 参阅 上 节 里 对 














行 了 降序 排列 ， 这 样 可 以 在 最 前 面 展 示 最 好 的 模 





Ebest estimator 会 返回 使 月 


Hue 





其 次 你 能 看 到 为 最 好 的 评估 器 生成 的 分 类 报告 ，predict 函数 在 内 部 调用 了 
best estimtor ， 生 成 这 个 报告 的 代码 如 下 。 
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dev predicted = grid.predict (x dev) 





print classification report(y dev,dev predicted) 





非常 棒 ! 我 们 构建 了 一 个 完美 的 模型 ， 分 类 精度 达到 了 10095. 
9.3.4 更 多 内 容 


超 随机 数 在 时 序 分 类 问题 方面 的 应 用 十 分 广泛 ， 可 以 参阅 以 下 论文 了 解 更 多 内 容 ， 请 
参见 : 


Ea 


















































Geurts, P.~ Blanco Cuesta A. 和 Wehenkel, L. 等 人 《Segment and combine approach for 
biological sequence classification》、《Proceedings of IEEE Symposium on Computational 


Intelligence in Bioinformatics and Computational Biology》， 第 194—201 W, 2005 年 。 
9.3.5 参考 资料 


第 6 章 “ 机 器 学 习 1” 中 6.5 节 “ 构 建 决 策 树 解 决 多 类 问题 ”的 相关 内 容 。 
第 8 章 “ 集 成 方法 ”中 8.2 节 “ 理 解 集 成 一 一 挂 袋 法 ”中 模型 选择 和 评估 的 相关 
























































第 9 章 “ 生 长 树 ” 中 9.2 节 “ 从 生长 树 到 生长 森林 一 一 随机 森林 ”中 机 器 学 习 的 相关 


9.4 生成 旋转 森林 











随机 森林 和 挂 袋 法 在 大 量 集成 时 ， 能 得 到 让 人 印象 深刻 的 效果 ， 树 类 方法 如 果 有 大 量 
评估 器 ， 就 能 在 精度 方面 得 到 提高 。 与 此 不 同 ， 旋 转 森 林 设 计 的 思路 是 采用 少 得 多 的 集成 
数量 。 


我 们 来 写 一 下 构建 旋转 森林 的 步 又 , 用户 得 先 指 定 森林 中 所 需要 的 树 的 数量 作为 参数 ， 
这 里 用 了 表示 。 


我 们 从 1 到 了 执行 欠 代 ， 也 就 是 构建 了 棵 树 。 

对 于 每 棵 树 执行 以 下 步 又。 

。 将 训练 集 里 的 属性 划分 为 大 小 相等 的 个 不 重 车 的 子 集 。 

。 现在 我 们 有 个 数据 集 ， 每 个 有 个 属性 。 对 每 份 数据 集 ， 我 们 执行 以 下 操作 : 
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举 75% 的 数据 ， 对 这 些 自 举 得 到 的 样本 执行 以 下 步 又 。 
口 在 K 个 数据 集 的 第 i 个 子 集 中 进行 主 成 分 分 析 , 保留 所 有 的 主 成 分 。 对 第 














个子 集 的 每 个 特征 j, 我 们 得 到 一 个 主 成 分 a, RRN ag, BLESS i TR 
的 第 j 个 属性 的 主 成 分 。 
口 保存 以 上 所 有 子 集 的 主 成 分 。 


。 创建 一 个 nXn 的 旋转 矩阵 ，n 是 属性 总 数 ， 将 主 成 分 放 入 矩阵 中 ， 这 些 成 分 匹配 
特征 在 初始 训练 数据 集中 的 位 置 。 






























































j 和 矩阵 乘法 将 训练 集 投 射 到 旋转 和 矩阵 上 。 
投射 的 数据 构建 一 棵 决策 树 。 








。 保存 树 和 旋转 矩阵 。 
掌握 了 这 些 知 识 ， 下 面 来 深入 了 解 旋转 森林 。 


9.4.1 准备 工作 


本 节 





U 




















会 先生 成 一 些 分 类 问题 的 数据 集 来 演示 旋转 森林 ， 据 我 们 所 知 ，Python 还 没有 旋 
转 森 林 的 实现 代码 ， 因 此 要 自己 编写 相关 代码 。 我 们 使 用 Scikit-learn 的 里 的 决策 树 















































并 用 train test split 函数 来 自 举 数据 。 





9.4.2 ”操作 方法 


我 们 先 加 载 必 需 的 库 ， 然 后 使 用 sklearn.dataset 模块 里 的 make 


classification 生成 训练 集 ， 接 着 再 编写 一 个 gen random subset 函数 来 随机 选择 


















































属性 的 子 集 。 


from 
from 
from 
from 
from 


impo 


def ge 


klearn 


rt numpy 





LEUR 


klearn. 


S 

S 
Sklearn. 
Sklearn. 
S 


klearn. 














datasets import make classification 


.netrics import classification report 


cross validation import train test split 
decomposition import PCA 
tree import DecisionTreeClassifier 


as np 


t data(): 


Make a sample classification dataset 


Returns : 


Independent variable y, dependent variable x 





























ha 
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wr 


no features = 50 

redundant features - int(0.1*no features) 
informative features - int(0.6*no features) 
repeated features - int(0.1*no features) 





x,y = make classification (n samples-500,n features-no ^ 
features,flip y-0.03,^ 





n informative = informative features, n redundant =\ 


redundant features \ 





;,n repeated = repeated features,random state-7) 


return x,y 


def get random subset (iterable,k): 
subsets - [] 
iteration = 0 
np.random.shuffle(iterable) 
subset - 0 
limit - len(iterable)/k 
while iteration « limit: 
if k <= len(iterable): 
subset = k 
else: 
subset = len(iterable) 
subsets.append(iterable[-subset:]) 
del iterable[-subset:] 
iteration-t-1 

















return subsets 














现在 我 们 编写 build rotationtree model 函数 来 构建 完全 生成 树 ， 并 |) 
model worth 函数 评估 森林 的 效果 。 





def build rotationtree model (x train,y train,d,k): 
models = [] 


r matrices - [] 





feature subsets - [] 
for i in range(d): 
X, , , = train test split(x train,y train,test ^ 
Size-0.3,random state-7) 
# 特征 的 索引 
feature index = range (x.shape[1]) 
# 获取 特征 的 子 集 


random k subset = get random subset (feature index,k) 











feature subsets.append(random k subset) 
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# 旋转 矩阵 
R matrix = np.zeros((x.shape[1],x.shape[1]),dtype-float) 
for each subset in random k subset: 

pca = PCA() 

x subset = x[:,each subset] 

pca.fit(x subset) 

for ii in range(0,len(pca.components )): 

for jj in range(0,len(pca.components )): 
R matrix[each subset[ii],each subset[jj]l] = pca.\ 


components [ii,jj] 
x transformed = x train.dot(R matrix) 
model = DecisionTreeClassifier() 


model.fit(x transformed,y train) 
models.append (model) 





r matrices.append(R matrix) 





return models,r matrices,feature subsets 


def model worth(models,r matrices,x,y): 


predicted ys = [ 





for i,model in enumerate (models): 





x mod = x.dot(r matrices[i]) 
predicted y = model.predict (x mod) 





predicted ys.append (predicted y) 


predicted matrix = np.asmatrix(predicted ys) 


1 


for i in range(len(y)): 


final prediction 





pred from all models = np.ravel(predicted matrix[:,i]) 
non zero pred = np.nonzero(pred from all models)[0] 





is one = len(non zero pred) > len (models)/2 
final prediction.append(is one) 


print classification report(y, final prediction) 





























最 后 编写 main 函数 ， 用 它 调用 之 前 的 所 有 函数 。 














if name == " main ": 





x,y = get data() 
# plot_data (x,y) 
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# 将 数据 划分 为 训练 集 、dev 集 和 测试 集 


x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 





x dev,x test,y dev,y test = train test split(x test all,y test ^ 
all,test size-0.3,random state-9) 








# 构建 多 个 模型 

models,r matrices,features = build rotationtree model(x train,y * 
Erain 255) 

model worth (models,r matrices,x train,y train) 


model worth (models,r matrices,x dev,y dev) 


9.4.3 ”工作 原理 


我 们 从 主 模 块 开始 ， 先 用 get data 函数 获取 预测 器 属性 和 反应 属性 ， 在 其 内 部 ， 我 
们 调用 make classification 数据 集 来 生成 训练 数据 。 


























"un 











def get data(): 
non ow 
Make a sample classification dataset 
Returns : Independent variable y, dependent variable x 
non ow 
no features = 50 
redundant features - int(0.1*no features) 
informative features - int(0.6*no features) 


repeated features - int(0.1*no features) 





x,y = make classification (n samples-500,n features-no ^ 
features, flip y=0.03,\ 
n informative = informative features, n redundant =\ 
redundant features \ 





;n repeated = repeated features,random state-7) 
return x,y 





我 们 来 看 一 下 传递 给 make classification 函数 的 各 个 参数 。 第 1 个 是 所 需 的 实 
例 数量 ， 本 例 需要 500 个 实例 。 第 2 个 是 每 个 实例 需要 的 属性 数量 ， 本 例 为 30。 第 3 个 参 
数 ELip_y， 要 求 随机 互 换 实 例 的 3%， 这 是 为 了 在 数据 中 产生 一 些 噪音 。 接 下 来 的 参数 指 
ETA 30 个 特征 中 选择 具有 足够 的 信息 量 来 进行 分 类 的 特征 个 数 ， 我 们 设 定 为 特征 的 
60%， 也 就 是 30 个 特征 中 的 18 个 应 该 是 高 信息 量 的 。 再 下 一 个 参数 是 关于 元 余 参 数 的 ， 
它们 产生 了 高 信息 量 特征 的 线性 组 合 以 构成 特征 之 间 的 关联 。 最 后 ， 重 复 特征 是 从 高 信息 
量 特征 和 和 宛 余 特征 中 随机 选择 的 副本 。 











k: 
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四 | 
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我 们 用 train test split 函数 把 数据 划分 为 训练 集 和 测试 集 ， 保 留 30% 的 数据 用 
来 测试 。 


add 














# 将 数据 划分 为 训练 集 、dev 集 和 测试 集 
x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 




















接着 再 次 调用 train test split 函数 把 测试 集 数据 划分 为 dev 集 和 测试 集 。 




















x dev,x test,y dev,y test = train test split(x test all,y test ^ 














all,test size-0.3,random state-9) 











有 了 建 模 、 评 估 和 测试 所 需 的 数据 ， 我 们 接着 开始 建 模 。 








models,r matrices,features = build rotationtree model (x train,y * 
train;25,5) 

















我 们 用 build rotationtree model 函数 来 构建 旋转 和 森林。 传递 的 参数 包括 : 训 
E, H x_train， 反 应 变量 y_train， 要 构建 的 树 的 数量 (本 例 为 25)， 最 后 还 
有 要 用 的 特征 子 集 (本 例 为 5)。 





Sm 
in 
im 
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来 看 看 这 个 函数 的 内 部 。 
models = [] 

r matrices = [] 
feature subsets - [] 





先 声 明 3 AIRRA DORMI. MAAR EFE PE ARTERE FH RETR, 
接着 就 开始 构建 集成 里 的 每 棵 树 。 


首先 ， 我 们 只 选用 自 举 出 的 75% 数 据 。 


















































X, , ,. = train test split(x train,y train,test\ 
| Size-0.3,random state-7) 














€ 


j 以 下 代码 





我 们 通过 scikit-learn BJ train test split 函数 进行 自 举 ， 然 后 
决定 特征 子 及 


# 特征 的 索引 
feature index = range(x.shape[1]) 
# 获取 特征 的 子 集 


random k subset = get random subset (feature index,k) 























ri 


o 
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feature subsets.append (random k subset) 





get random subset 函数 的 参数 包括 特征 的 索引 号 和 子 集 的 数量 k 返回 的 结果 为 
K 个 子 集 。 














ri 











在 这 个 函数 的 内 部 ， 我 们 要 把 特征 的 索引 搅乱 ， 这 些 索引 是 从 0 开始 ， 到 训练 集 的 特 
征 数 结束 的 一 个 数组 。 





np.random.shuffle (iterable) 











1 


假定 有 10 个 特征 ，k 值 为 5， 这 表示 需要 的 是 5 个 不 重 辣 的 特征 索引 子 集 ， 接 着 进行 
两 重 迭 代 ， 我 们 把 所 需 的 迭代 次 数 保存 在 limit 变量 中 。 





P4 

















limit - len(iterable)/k 
while iteration « limit: 
if k <= len(iterable): 
subset = k 
else: 
subset - len(iterable) 
iteration-t-1 























如 果 所 需 的 子 集 比 属性 总 数 要 少 ， 那 我 们 可 以 在 迭代 里 
序 已 被 打 乱 ， 我 们 每 次 得 到 的 值 是 不 一 样 的 。 








TM 








JB k 个 项 目 。 因 为 迭代 器 顺 








subsets.append(iterable[-subset:]) 














P7 n SH E EUER IS. PLEANEXE — P EJ. dM EE NIE as RUIN ER 

















del iterable[-subset:] 























准备 好 所 有 的 子 集 ， 我 们 用 以 下 代码 声明 旋转 矩阵 。 


# AB 
R matrix = np.zeros((x.shape[1],x.shape[1]),dtype-float) 
































如 你 所 见 , 旋转 和 矩阵 的 大 小 是 nxn, n 是 数据 集 里 的 属性 数量 。 你 会 发 现 我 们 用 shap 
属性 声明 将 矩阵 用 零 进 行 填充 。 
































for each subset in random k subset: 
pca = PCA() 


x subset = x[:,each subset] 
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pca.fit(x subset) 























K 个 子 集中 的 每 一 个 数据 集 都 只 有 大 个 特征 ， 我 们 接着 执行 主 成 分 分 析 。 
现在 用 以 下 代码 将 成 分 值 填充 到 旋转 矩阵 里 。 






































for ii in range(0,len(pca.components )): 
for jj in range(0,len(pca.components )): 
R matrix[each subset[ii],each subset[jj]l] = pca.\ 
components [ii,jj] 


例如 ， 假 定子 集中 有 3 个 属性 ， 总 共有 6 个 属性 ， 设 定 它们 的 值 如 下 。 








2,4,6 and 1,3,5 


旋转 矩阵 R 的 大 小 为 6x6， 假 设 我 们 要 把 这 个 矩阵 用 第 1 个 特征 子 集 进行 填充 ， 这 样 
会 有 3 个 主 成 分 ， 每 个 都 是 大 小 为 1x3 的 “2,4,6”。 

Scikit-learn 的 PCA 输出 结果 是 一 个 矩阵 ， 大 小 为 成 分 的 特征 数 X， 我 们 在 for 
循环 中 遍历 每 个 成 分 值 。 在 第 1 次 运行 时 ， 我 们 感 兴趣 的 特征 是 2，PCA 得 到 的 成 分 窍 阵 
输出 里 的 单元 格 (0,0) 给 出 了 特征 2 对 于 成 分 1 的 贡献 值 。 要 在 旋转 矩阵 中 找到 这 个 值 的 
位 置 ， 我 们 用 成 分 矩阵 的 二 和 jj 索引 值 以 及 子 集 列 表 进 行 定位 。 























































































































R matrix[each subset[ii],each subset[jj]] = pca.components [ii,jj] 








each subset[0] 和 each subset[0] 让 我 们 关注 旋转 矩阵 的 单元 格 〈2,.2)。 在 循 
环 过 程 中 ， 在 成 分 矩阵 单元 格 (0,1) 里 的 下 一 个 成 分 值 会 被 放 入 旋转 矩阵 的 单元 格 (2,4) 
和 单元 格 (2,6) 里 的 最 后 一 个 值 ， 第 1 个 子 集 的 所 有 属性 上 都 执行 了 这 个 过 程 。 然 后 是 第 2 
个 子 集 ， 此 时 第 1 个 属性 是 1， 成 分 矩阵 的 单元 格 (0,0) 与 旋转 矩阵 的 单元 格 〈1,1) 一 致 。 
继续 这 样 操作 下 去 ， 你 会 发 现 属性 成 分 值 的 排列 方式 和 属性 自 喘 一 致 。 
准备 好 了 旋转 矩阵 ， 现 在 把 输入 数据 投射 到 旋转 矩阵 上 。 
































































































































x transformed = x train.dot(R matrix) 





现在 可 以 适 配 决策 树 了 。 


model = DecisionTreeClassifier() 
model.fit(x transformed, y train) 





最 后 ， 把 模型 及 其 相关 的 旋转 矩阵 保存 起 来 。 
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models.append (model) 


r matrices.append(R matrix) 














建 模 之 后 ， 我 们 可 以 用 model worth 函数 来 查看 它们 在 训练 集 和 dev $ 
果 究 况 如 何 。 








上 的 执行 效 


vr 














model worth (models,r matrices,x train,y train) 


model worth (models,r matrices,x dev,y dev) 





— F model worth 函数 的 内 部 。 


for i, model in enumerate (models): 





x mod = x.dot(r matrices[i]) 
predicted y = model.predict (x mod) 
predicted ys.append (predicted y) 



































函数 内 部 用 我 们 构建 的 每 棵 树 执 行 了 预测 ， 不 过 在 预测 之 前 ， 用 旋转 矩阵 投射 了 输入 
数据 。 我 们 把 预测 值 输出 到 predicted_ys 列表 里 。 假 定 要 预测 100 个 实例 ， 现 在 有 10 
个 树 模型 ， 对 于 每 个 实例 ， 就 有 10 个 预测 值 ， 为 方便 起 见 ， 我 们 把 这 些 都 存放 在 一 个 和 矩 


阵 里 


Ee ed 
































predicted matrix = np.asmatrix (predicted ys) 





现在 开始 给 每 条 输入 记录 给 出 最 终 的 分 类 结果 。 


final prediction = [] 
for i in range(len(y)): 


pred from all models - 





np.ravel(predicted matrix[:,i]) 
non zero pred = np.nonzero(pred from all models) [0] 


is one - len(non zero pred) » len (models)/2 
final prediction.append(is one) 




















最 终 预 测 结果 保存 在 列表 final prediction 里 ， 仔 细 看 看 实例 的 每 个 预测 值 ， 假 
定 我 们 在 第 1 个 实例 处 〈fer 循环 里 1200, pred from all models 保存 了 模型 中 所 有 
树 的 输出 结果 ， 这 是 一 个 由 0 和 1 组 成 的 数组 ， 用 以 指出 模型 在 该 实例 上 的 分 类 情况 。 

我 们 还 为 父 数组 中 非 0 的 条 目 生 成 了 另 一 个 数组 non zero pred. 


最 后 ， 如 果 这 个 非 0 数组 的 长 度 大 于 模型 数量 的 一 半 ， 则 这 
我 们 所 做 的 就 是 一 个 经 典 的 投票 场景 。 
























































这 个 实例 的 最 终 预测 值 为 1， 
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我 们 调用 classification report 函数 来 看 看 模型 的 效果 。 





print classification report(y, final prediction) 


训练 集 上 的 模型 效果 如 图 9-9 所 示 。 
dev 集 上 的 模型 效果 如 图 9-10 所 示 。 





precision recall fl-score support precision recall fi-score support 
e 1.00 1.00 1.00 173 e 0.87 0.83 0.85 54 
1 1.00 1.00 1.00 177 1 0.83 06.86 0.85 51 





avg / total 1.00 1.00 1.00 350 avg / total 0.85 8.85 8.85 105 

















图 9-9 图 9-10 


9.4.4 更 多 内 容 


参阅 以 下 论文 可 以 了 解 更 多 关于 旋转 森林 的 内 容 。 


Juan J. Rodriguez (IEEE 计算 机 协会 会 员 )、Ludmila I. Kuncheva (IEEE 会 员 ) 和 Carlos 
J. Alonso 等 所 著 的 《Rotation Forest: A New Classifier Ensemble Method}. 


这 篇 论文 也 提 到 在 33 个 数据 集 上 将 超 随机 树 和 挂 袋 法 、Adboost、 随 机 森林 进行 比 
较 ， 超 随机 树 的 效果 比 其 他 3 种 算法 要 更 好 。 


论文 作者 认为 超 随机 树 和 梯度 提升 法 类 似 ， 也 是 一 个 整体 框架 ， 潜 在 集成 里 的 不 一 定 
必须 是 决策 树 ， 目 前 正在 测试 使 用 其 他 算法 如 朴素 贝 叶 斯 、 神 经 网 络 等 。 
9.4.5 参考 资料 


第 4 章 “ 数 据 分 析 一 一 深入 理解 ”中 4.2 节 “ 抽 取 主 成 分 ”的 相关 内 容 。 

第 4 章 “ 数 据 分 析 一 一 深入 理解 ”中 4.5 节 “ 用 随机 映射 给 数据 降 维 ” 的 相关 内 容 。 
第 6 章 “ 机 器 学 习 1” 中 6.5 节 “ 构 建 决策 树 解 决 多 类 问题 ”的 相关 内 容 。 

第 8 章 “ 集 成 方法 ”中 8.4 节 “ 理 解 集成 一 一 梯度 提升 ”中 模型 选择 和 评估 的 相关 内 容 。 


第 9 章 “ 生 长 树 ” 中 9.2 节 “ 从 生长 树 到 生长 森林 一 一 随机 森林 ”中 机 器 学 习 的 相关 
内 容 。 


第 9 章 “ 生 长 树 ” 中 9.3 节 “ 生 成 超 随 机 树 ” 中 机 器 学 习 的 相关 内 容 。 





























































































































在 这 一 章 中 ， 我 们 将 探讨 以 下 主题 。 


10. 1 








感知 器 作为 在 线 线性 算法 









































4m 
简介 























随机 梯度 下 降解 决 回归 问题 
随机 梯度 下 降解 决 分 类 问题 
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本 章 我 们 关注 的 是 大 规模 机 器 学 习 及 适合 处 理 大 规模 问题 的 算法 。 到 目前 为 止 ， 我们 
本 章 将 介绍 在 不 满足 这 


所 训练 的 模型 都 被 限定 为 训练 集 可 以 完全 装载 到 计算 机 的 内 存 里 ， 
个 条 件 的 情况 下 要 如 何 来 建 模 。 训 练 集 记录 数目 庞大 ， 无 法 完全 装 
加 载 ， 同 时 还 要 保持 模型 精度 良好 。 训 练 集 无 法 全 部 加 载 到 内 存 的 情形 可 以 外 推 到 流 数 据 ， 
的 全貌。 无 论 接 触 到 的 数据 是 什么 样 ， 我 们 都 应 该 能 
个 随 着 新 数据 的 到 来 而 持续 提高 的 架构 。 








做 出 判断 ， 并 构建 
本 章 将 介绍 基于 随机 梯 




















在 此 情况 下 ， 我 们 无 法 立刻 看 到 数据 
































































































































载 到 内 存 中 ， 只 能 分 段 















































度 下 降 算法 的 框架 ， 这 是 一 个 用 来 处 理 






































的 大 规模 数据 集 的 全 能 的 框架 。 一 些 线性 算法 ， 包 括 逻 辑 回归 、 线 


都 能 使 
性 关系 


我 们 从 感知 器 算法 开始 














=> pneu 
E 73H56 
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I7 





] 这 个 框架 。 我 们 前 几 章 介绍 过 的 核 方法 也 包含 在 这 个 框架 


rim 
o 





数据 和 





性 回 





无 法 全 部 加 载 到 内 存 ， 
归 和 线性 SVM 等 ， 






































rur 用 来 

































































接着 一 节 中 将 正式 介 



































处 理 包 含 非 线 














讲解 ， 这 是 种 最 古老 的 机 器 学 习 算法 ， 易 于 理解 和 实施 。 不 过 ， 
备 决 线性 问题 ， 基 于 核 的 感知 器 则 可 以 解决 非 线 性 数据 集 。 























基于 梯度 下 降 的 框架 ， 解 释 它 如 何 被 ) 








来 执行 回 





归 任 务 。 我 们 
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在 线 学 习 














会 学 习 不 同 的 损失 函数 ， 看 看 用 这 些 函 数 所 构建 的 不 同类 型 的 线性 模型 。 我 们 还 要 研究 
知 器 为 何 从 属于 随机 梯度 下 降 算 法 族 。 


最 后 一 节 讲 解 如 何 用 随机 梯度 下 降 框架 构建 分 类 算法 。 


虽然 没有 使 用 流 数 据 的 直接 示例 ， 现 有 使 用 的 数据 集 已 经 可 以 展示 如 何 对 流 数据 用 例 
进行 处 理 。 在 线 学 习 算 法 并 不 只 限于 流 数 据 ， 也 能 应 用 于 批量 数据 ， 除 了 一 次 只 处 理 一 个 
实例 的 情况 。 


10.2 用 感知 器 作为 在 线 学 习 算 ; 
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过 前 说 过 ,感知 器 是 最 古老 的 机 器 学 习 算 法 之 一 ，1943 年 , 它 首次 出 现在 以 下 论文 中 。 








(A LOGICAL CALCULUS OF THE IDEAS IMMANENT IN NERVOUS ACTIVITY}, 
WARREN S.MCCULLOCH 和 WALTER PITTS， 伊 利 诺 伊 大 学 医学 院 精 神 病 学 系 神 经 精神 
病 学 研究 所 ， 美 国 芝 加 哥 大 学 。 


我 们 再 审视 一 下 分 类 问题 的 定义 ;对 于 每 个 记录 或 者 实例 ， 它 可 以 表示 成 集合 CX.y)， 
其 中 X 是 一 系列 属性 ，y 则 是 相应 的 类 别 标签 。 
学 习 一 个 目标 函数 F， 然 后 把 每 个 记录 的 属性 集合 映射 到 一 个 预定 义 的 类 别 标签 y 上 ， 
这 就 是 分 类 算法 。 
现在 情况 有 所 不 同 : 我 们 面 对 的 是 大 规模 的 学 习 问 题 , 无 法 将 全 部 数据 装载 到 内 存 中 。 
此 ， 我 们 必须 将 数据 存放 在 磁盘 上 ， 感 知 器 建 模 的 一 段 时 间 内 只 使 用 其 中 的 一 部 分 。 
我 们 来 描述 一 下 感知 器 算法 的 大 致 步骤， 如 下 所 示 。 
1， 将 模型 的 权重 用 一 个 小 的 随机 数 进行 初始 化 。 
2， 用 输入 数据 x 的 平均 值 进行 中 心 化 。 
3. 在 每 个 步骤 t (也 称 为 纪元 ): 
。 将 数据 集 捞 乱 。 
。 选择 记录 中 的 一 个 实例 并 进行 预测 。 
e 观察 预测 的 和 真实 的 标签 输出 ， 比 较 其 误差 。 
。 如 果 预 测 值 与 真实 标签 不 同 ， 则 更 新 权重 。 
想象 一 下 如 下 场景 :磁盘 上 有 完整 的 数据 集 ， 在 每 个 纪元 里 ， 也 就 是 上 述 第 3 步 中 提 
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到 的 每 个 操作 执行 壳 历 磁盘 上 的 所 有 数据 。 在 一 个 在 线 学 习 场 景 中 ， 任 一 时 间 点 上 都 有 一 
群 基于 窗口 函数 的 实例 是 可 用 的 。 在 一 个 纪元 中 ， 我 们 更 新 权重 的 次 数 和 窗口 时 间 里 的 实 
例 数量 一 样 多 。 


我 们 来 看 看 如 何 更 新 权重 值 。 
































































































































假定 输入 XX 如 下 。 
XE{xX1X2X3,..-Xm} where i=1 to n 
7 的 集合 如 下 。 
Y-(-1,-1) 
权重 的 定义 方程 如 下 。 








Wziwiwowa,...,wa] 
每 条 记录 得 出 的 预测 值 定义 如 下 。 
psign(Wi*xi) 
如 果 权 重 和 属性 的 乘积 是 正 数 ，sign 函数 返回 +1， 如 果 是 负数 ， 则 返回 -1。 
感知 器 对 预测 的 > 值 和 真实 的 > 值 进行 比较 ， 如 果 预 测 的 > 是 正确 的 ， 则 处 理 下 
条 记录 ， 和 否则 的 话 有 两 种 情况 ， 如 果 预 测 值 为 +1 而 真实 值 是 -1， 它 用 x 值 降低 权重 ， 
反之 亦 然 ， 如 果真 实 值 为 +1， 而 预测 值 为 -1， 它 提高 权重 。 我 们 用 以 下 等 式 可 以 看 得 更 


尘 林 
TH 4E o 
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Wi] —WrEYsXi 


般 来 说 ， 算 法 提供 一 个 学 习 速率 参数 alpha， 这 样 权重 更 新 的 过 程 可 以 受 控 。 在 数据 
中 有 噪音 时 ， 全 面 增加 衰减 会 导致 权重 不 能 收敛 。 



























































Wy47Wrka(ygxi) 
alpha 取 值 范围 很 小 ， 一 般 介 于 0.1 到 0.4 之 间 。 
下 面 我 们 来 进行 深入 了 解 。 
10.2.1 ”准备 工作 


我 们 用 make classification 来 批量 生成 数据 ， 
和 数据 流 ， 然 后 编写 感知 器 算法 。 
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j 发 生 器 函数 来 模拟 大 规模 数据 
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10.2.2 ”操作 方法 


先 加 载 必需 的 库 ， 然 后 编写 get data 函数 来 作为 发 生 器 。 














from sklearn.datasets import make classification 
from sklearn.metrics import classification report 
from sklearn.preprocessing import scale 

import numpy as np 


def get data (batch size): 
Tr 


Make a sample classification dataset 


Returns : Independent variable y, dependent variable x 
"nn 

b size = 0 

no features - 30 

redundant features - int(0.1*no features) 

informative features - int(0.8*no features) 

repeated features - int(0.1*no features) 





while b size « batch size: 
x,y = make classification (n samples-1000,n features-no \ 
features,flip y-0.03,^ 
n informative = informative features, n redundant =\ 
redundant features \ 








;n repeated = repeated features, random state-51) 
y indx = y < 1 


y[y indx] = -1 
x = scale (x,with mean-True,with std-True) 
yield x,y 


b sizet-1 















































接着 我 们 要 编写 两 个 函数 ， 一 个 用 来 构建 感知 器 模型 ， 男 一 个 用 来 评估 模型 的 效果 。 





def build model (x, y, weights,epochs,alpha=0.5): 


wr 


Simple Perceptron 


wr 


for i in range (epochs): 


10.2 用 感知 器 作为 在 线 学 习 算法 363 
# 搅乱 数据 集 


shuff index = np.random.shuffle (range (len(y))) 
x train = x[shuff index,:].reshape (x.shape) 
y train = np.ravel(y[shuff index,:]) 


# KIEK S CR 


for index in range(len(y)): 


m 





prediction = np.sign( np.sum(x train[index,:] * weights) ) 
if prediction !- y train[index]: 
weights —- weights + alpha * (y train[index] *x train[index,:]) 


return weights 
def model worth(x,y,weights): 


prediction = np.sign(np.sum(x * weights,axis-1)) 
print classification report(y,prediction) 
































最 后 编写 main 函数 ， 用 它 调用 之 前 的 所 有 函数 来 演示 感知 器 算法 。 











if name == " main ": 
data = get data (10) 
x,y = data.next() 











weights = np.zeros (x.shape[1]) 

for i in range (10): 
epochs = 100 
weights = build model (x,y,weights,epochs) 
print 


print "Model worth after receiving dataset batch $d"2(i-*1) 





model worth (x,y,weights) 





print 
if px 93 
x,y = data.next() 


10.2.3 ”工作 原理 


我 们 从 主 模块 开始 ， 让 发 生 器 先生 成 10 组 数据 。 














data = get data(10) 



































i 





这 里 我 们 要 模拟 大 规模 数据 和 数据 流 ， 建 模 时 ， 并 不 操作 所 有 的 数据 ， 而 只 使 用 
的 一 部 分 。 


y 
4 
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x,y = data.next() 























我 们 使 用 了 发 生 器 的 next () 函数 来 获取 下 一 组 数据 ， 在 get. data 函数 中 ， 我 们 调 
]scikit-learn 中 的 make classification 函数 。 




















x,y = make classification(n samples-1000,n features-no \ 
features,flip y-0.03,^ 


n informative = informative features, n redundant =\ 





redundant features \ 





;n repeated = repeated features, random state-51) 





我 们 来 看 下 传递 给 make classification 函数 的 各 个 参数 。 第 1 个 是 所 需 的 实例 
数量 ， 本 例 需 要 1000 第 2 个 是 每 个 实例 需要 的 属性 数量 ， 本 例 为 30。 第 3 个 参 
数 flip_y， 要 求 随机 互 换 实例 的 3%， 这 是 为 了 在 数据 中 产生 一 些 噪音 。 接 下 来 的 参数 指 
定 了 从 30 个 特征 中 选择 具有 足够 的 信息 量 来 进行 分 类 的 特征 个 数 ， 我 们 设 定 为 特征 的 
60%， 也 就 是 30 个 特征 中 的 18 个 应 该 是 高 信 ， 电量 的 。 再 下 一 个 参数 是 关于 元 余 参 数 的 ， 
它们 产生 了 高 信息 量 特征 的 线性 组 合 以 构成 特征 之 间 的 关联 。 最 后 ， 重 复 特征 是 从 高 信息 
量 特征 和 元 余 特 征 中 随机 选择 的 副本 。 


调用 next (O 时 ， 我 们 得 到 1000 个 数据 的 实例 ， 这 个 函数 返回 的 y 的 标签 集合 是 {0,1}， 
而 我 们 需要 的 是 {-1,+1}， 因 此 要 把 y 里 所 有 的 0 替换 成 -1。 
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y indx = y < 1 
y[y indx] = -1 























最 后 ， 我 们 用 scikit-learn 里 的 scale 函数 对 数据 进行 中 心 化 。 
现在 用 第 1 批 数 据 来 建 模 ， 先 把 权重 和 矩阵 用 0 值 进 行 初 始 化 。 






































weights = np.zeros(x.shape[1]) 








因为 需要 10 组 数据 来 模拟 大 规模 的 学 习 和 数据 流 ， 所 有 我 们 在 for 循环 中 建 模 10 次 。 








for i in range(10): 
epochs = 100 
weights = build model (x,y,weights,epochs) 


预测 器 x、 反 应 变量 y、 权 重 和 矩阵 和 操作 次 数 或 者 纪元 等 作为 参数 传递 给 build 


model 函数 ， 由 此 构建 感知 器 算法 。 本 例 中 ， 纪 元 数量 设置 为 100， 函 数 还 有 另外 一 个 参 
数 : alpha 值 。 
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def build model (x,y,weights,epochs,alpha=0.5) 





alpha 值 被 设置 为 默认 值 0.5。 
build model， 先 从 搅乱 数据 开始 。 


现在 来 看 看 

















# 搅乱 数据 集 


shuff index = np.random.shuffle(range(len(y))) 


x train = x[shuff index,:]. 


y train = np.ravel(y[shuff index,:]) 


reshape (x.shape) 




















代码 遍历 数据 集 里 的 每 条 记录 ， 














并 开始 更 新 权重 值 。 


# 一 次 构建 一 个 实例 的 权重 
for index in range(len(y)): 
prediction = np.sign( np.sum(x train[index,:] * weights) ) 
if prediction != y train[index]: 


weights = weights + alpha * (y train[index] * x train[index,:]) 





在 for 循环 里 ， 我 们 算出 了 预测 值 。 
prediction = np.sign( np.sum(x train[index,:] * weights) ) 











把 权重 值 和 训练 集 数据 相 乘 ， 再 累加 起 来 ， 最 后 用 np.sign 函数 算出 预测 值 ， 现 在 











weights = weights + alpha * 


LA bESERSEBDPXE, SJIB 
在 主 函 数 里 ， 我 们 调用 model worth 函数 来 打印 输出 模型 的 效果 ， 然 后 再 用 


classificati 


print 





hl 














基于 这 个 预测 值 ， 我 们 可 以 对 权重 进行 更 新 。 





















































(y train[index] * x train[index,:]) 


有 向 调用 者 函数 返回 权重 值 。 



































on report 快捷 函数 打印 出 模型 的 精度 评分 。 


print "Model worth after receiving dataset batch $d"$(i-*1) 


model worth (x, y,weights) 








接着 还 要 为 下 一 批 装载 的 数据 修正 模型 ， 请 注意 我 们 没有 改变 weights 参数 ， 它 在 
每 批 次 新 数据 装载 后 被 更 新 。 






































我 们 来 看 看 








model worth {fH 





HIER, 











图 10-1 所 示 。 


366 第 10 章 大 规模 机 器 学 习 一 -在线 学 习 
worth after receiving dataset batch 1 
precision recall fi-score support 


499 
501 


1000 


worth after receiving dataset batch 2 
precision recall fi-score support 


499 
501 


total : 4 x 1000 


worth after receiving dataset batch 3 
precision recall fl-score support 


499 
501 


total . ^ 2 1000 


worth after receiving dataset batch 4 
precision recall fi-score support 


499 
501 


total > e > 1000 








10.2.4 更 多 内 容 


scikit-learn 实现 了 感知 器 算法 ， 访 问 以 下 链接 可 了 解 更 多 详细 信息 。 





http://scikit-learn.org/stable/modules/generated/sklearn.linear model.Perceptron.html 。 


另 一 种 改善 感知 器 效果 的 办 法 是 使 用 更 多 的 特征 ， 还 记得 感知 器 的 公式 吗 ? 我 们 把 它 
重 写成 如 下 形式 。 





P=sign(wix D(x)) 


我 们 用 一 个 函数 蔡 换 了 x 值 ， 这 里 使 用 了 一 个 特征 生成 器 。 例 如 ， 我 们 可 以 把 多 项 式 
特征 生成 器 加 入 到 get data 函数 中 ， 代 码 如 下 。 





def get data (batch size): 
non ow 
Make a sample classification dataset 
Returns : Independent variable y, dependent variable x 


mn 
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b size = 0 

no features = 30 

redundant features - int(0.1*no features) 
informative features - int(0.8*no features) 





repeated features - int(0.1*no features) 
poly = PolynomialFeatures (degree-2) 





while b size « batch size: 


x,y = make classification (n samples-1000,n features-no \ 


features,flip y-0.03,^ 
n informative = informative features, n redundant =\ 


redundant features \,n repeated = repeated features, random state-51) 








y indx = y < 1 

y[y indx] = -1 

x = poly.fit transform(x) 
yield x,y 

b size-*-1 


























最 后 ， 基 于 核 的 感知 器 算法 已 经 被 应 用 于 处 理 非 线性 的 数据 集 ， 可 以 参考 维基 百科 的 
文章 了 解 相 关 信 息 ， 请 参见 : 


https://en.wikipedia.org/wiki/Kernel_ perceptron. 


10.2.5 参考 资料 





第 5 章 “ 数 据 挖掘 



































捞 针 ”中 5.3 节 “ 学 习 和 使 ) 





10.3 用 随机 梯度 下 降解 决 回归 问题 











j 核 方法 ”的 相关 内 容 。 


在 标准 的 回归 结构 里 ， 我 们 有 一 系列 的 预测 器 (实例 )， 形 式 如 下 。 











X={X1,X2,... Xn} 























每 个 实例 有 m 个 属性 ， 形 式 如 下 。 


反应 变量 了 是 一 个 由 实数 条 目 组 成 的 向 量 


X= xiXp, .Xim} where i-lton 


























~ 








为 它 的 输入 时 ， 能 返回 y。 


FX)=Y 





回归 算法 的 任务 是 找到 一 个 函数 ， 当 x 作 








上 面 这 个 函数 由 一 个 权重 向 量 来 参数 化 ， 也 即 权 重 向 量 和 输入 向 量 组 合 起 来 用 来 预测 
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yE, K \ 式 中 加 入 权重 


题 。 
eai 
据 集 ， 





id puri 
o 








这 样 ， 问 题 就 变 成 如 何 才能 得 到 合 


此 ， 可 以 在 公 
































数 





TER 


H 








N— 











我 们 所 找 的 权 


mi 


ok fitr 
问题 现在 转 
全 局 损失 函数 的 


了 页 


ju 














句 量 ， 


测 出 错 所 付出 的 代价 ， 
化 为 找 出 让 损失 函数 最 小 
形式 如 下 。 





F(X,W)-Y 
适 的 权重 向 量 。 











1 n 
2, LU Gi.) y) 























梯度 ， 也 就 是 对 W 


和 批量 梯度 下 降 


步骤 如 下 所 示 。 


如 你 所 见 ， 权 重 和 梯度 的 方向 相反 ， 强 制 使 得 最 终 权 重 向 量 降 序 排列 ， 这 样 能 减 小 目 
标 代价 函数 。 
习 归 问题 中 经 常用 损失 的 平方 作为 损失 函数 ， 它 的 公式 如 下 。 
(y 
上 式 的 导数 可 以 替换 到 权重 更 新 公式 里 。 
了 解 了 以 上 背景 知识 ， 现 在 开始 讲解 随机 梯度 下 降 回 归 问 题 。 
介绍 感知 器 时 曾 提 到 过 ， 为 了 避免 噪音 影响 效果 ， 引 入 了 学 习 速 率 7 到 权重 更 新 公式 里 。 





1. 
2: 
3. 





4. 





我 们 定义 一 个 符号 : V,, ， 它 代表 关于 












































等 其 


向 量 要 使 得 上 式 值 最 小 。 


梯度 下 降 法 是 一 种 优化 技术 ， 可 以 用 来 使 
的 一 阶 导 数 。 








的 合适 的 权重 向 


得 上 式 值 最 小 。 


我 们 采用 损失 函数 工 来 解决 





这 个 问 























己任 经 验 测 算 预 测 值 y 和 真实 值 y Z 
o HFA n 个 元 素 的 数 


E 


FB 














对 这 








对 于 每 个 纪元 ， 搅 乱 数 据 集 。 





他 优化 技术 不 同 ， 随 机 梯度 下 降 每 次 








选择 一 个 实例 及 和 它 对 应 的 反应 变量 y。 











计算 损失 函数 和 它 关 于 权重 的 导数 。 
更 新 权重 值 。 





Win 























Wi 





只 操作 一 个 实例 ， 








w 的 导数 ， 权 重 更 新 的 公式 如 下 所 示 。 


V, L(f( x» w ), y) 
































Wi} 二 



































间 的 


个 式 子 ， 我 们 要 找 出 其 


它 的 操作 


























wm V, LOfCxuw).y)) 
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10.3.1 ”准备 工作 


本 节 直 接 使 用 scikit-learn 里 实现 的 SGD (Stochastic Gradient Descent， 随 机 梯度 
下 降 ) 回归 算法 ， 和 上 一 节 的 部 分 内 容 一 样 ， 我 们 使 用 sklearn.dataset 模块 里 的 
make classification 生成 数据 来 演示 随机 梯度 下 降 回 归 问 题 。 


10.3.2 ”操作 方法 


我 们 先 用 一 个 简单 的 示例 来 演示 如 何 构建 一 个 随机 梯度 下 降 的 回归 算法 。 
先 加 载 必需 的 库 ， 然 后 编写 一 个 函数 来 生成 预测 器 和 反应 变量 来 演示 回归 问题 。 
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from sklearn.datasets import make regression 
from sklearn.linear model import SGDRegressor 
from sklearn.metrics import mean absolute error, mean squared error 


from sklearn.cross validation import train test split 


def get data(): 
non ow 
Make a sample classification dataset 
Returns : Independent variable y, dependent variable x 


LIE 


no features - 30 





x,y = make regression(n samples-1000,n features-no features,N 
random state-51) 


return x,y 


























接着 编写 一 个 能 够 帮助 我 们 构建 、 验 证 和 检测 模型 的 函数 。 





def build model (x,y): 

estimator = SGDRegressor(n iter = 10, shuffle-True,loss = "squared ^ 
loss", learning rate-'constant',eta0-0.01,fit intercept-True, \ 
penalty-2'none') 
estimator.fit(x,y) 





return estimator 


def model worth (model,x,y): 
predicted y = model.predict(x) 





print "\nMean absolute error = $0.2f"£mean absolute \ 
error(y,predicted y) 
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print "Mean squared error = £$0.2f"$mean squared \ 


error(y,predicted y) 


def inspect model (model): 





print "\nModel Itercept (0j".format (model.intercept ) 


print 


for i,coef in 


numerat 





print "Coefficien 


(model.coef ): 























最 后 编写 main KM, WEY 

















J 


if name == " main ": 





x,y = get dat 


a() 


之 前 的 所 有 函数 。 





# 将 数据 划分 为 训练 集 、qev 集 和 测试 集 


x train,x test all,y train,y test all = train test split(x,y,test \ 


size = 0.3,random state-9) 


0) = (1:.3f)".format(i-*1,coef) 


x dev,x test,y dev,y test = train test split(x test all,y test ^ 








all,test size-0.3,random state-9) 


model - build model(x train,y train) 





inspect model 


(model) 


print "Model worth on train data" 


model worth (model,x train,y train) 


print "Model worth on dev data" 


model worth (model,x dev,y dev) 


# 采用 工 2 正则 化 


建 模 





model = build model regularized(x train,y train) 


inspect model 


(model) 





10.333 ”工作 原理 








我 们 从 主 模块 开始 ， 先 用 get data 函数 生成 预测 器 x 和 反应 变量 


x, y= get data() 




















在 get data KAH 
给 回归 问题 生成 数据 集 。 








pim 


no features - 30 


E, FRATI 











HA 


月 了 scikit-learn 





hun 
< 
o 

















里 的 make regression 函数 来 
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x,y = make regression(n samples-1000,n features=no features, AN 
random state-51) 


如 你 所 见 , 我 们 指定 n_samples 参数 让 函数 生成 了 1000 个 实例 , 指定 n features 
参数 定义 30 个 特征 。 

我 们 用 train test split 函数 把 数据 划分 为 训练 集 和 测试 集 ， 保 留 30 多 的 数据 用 
来 测试 。 

# 将 数据 划分 为 训练 集 、dev 集 和 测试 集 


x train,x test all,y train,y test all = train test split(x,y,test ^ 



































mans 











size = 0.3,random_state=9) 

















数据 划分 为 dev 集 和 测试 个 





pim 
o 


接着 再 次 调用 train test split 函数 把 测试 全 








pim 

















x dev,x test,y dev,y test = train test split(x test all,y test ^ 














all,test size-0.3,random state-9) 





我 们 在 训练 集 上 调用 build model 函数 。 


model = build model(x train,y train) 

















f£ build model 函数 中 ， 我 们 调用 了 sciki-learn 的 SGD Regressor 类 来 构建 
随机 梯度 下 降 方法 。 





estimator = SGDRegressor(n iter = 10, shuffle-True,loss = "squared ^ 
loss", learning rate-'constant',eta0-0.01,fit intercept-True, \ 
penalty-2'none') 
estimator.fit(x,y) 





























SGD Regressor 有 丰富 的 方法 ， 可 用 于 适 配 具 有 大 量 参数 的 许多 种 线性 模型 。 我 们 
介绍 一 些 随 机 梯度 下 降 的 基本 方法 ， 后 面 再 介绍 其 他 的 细节 。 

请 注意 我 们 使 用 的 参数 。 第 1 个 是 为 了 更 新 权重 值 所 需 遍历 数据 集 的 次 数 ， 本 例 设 定 
为 10 次 迭代 。 和 感知 器 一 样 ， 人 遍历 所 有 的 记录 一 遍 之 后 ， 要 进行 下 一 轮 迭 代 时 ， 我们 要 把 
痊 入 记录 搅乱 ， 这 里 的 shuffle 参数 就 起 到 这 个 作用 ， 它 的 默认 值 是 True， 我 们 把 它 写 
出 来 是 出 于 讲解 的 需要 。1oss 参数 将 损失 函数 指定 为 squared loss. 我 们 要 完成 的 是 
一 个 线性 回归 任务 。 

我 们 用 learning rate 参数 来 指定 学 习 速 率 eta 为 常数 类 型 ， 用 eta0 参数 指定 学 
习 速 率 的 值 。 因 为 没有 对 数据 采用 平均 值 进 行 中 心 化 ， 我 们 还 得 适 配 回归 常数 。 最 后 ， 
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penalty 参数 控制 所 需 的 缩减 类 型 ， 本 例 无 需 进行 缩减 ， 因 而 使 用 了 “none” 字 符 串 。 
我 们 对 预测 器 和 反应 变量 调用 fit 函数 来 建 模 ， 最 后 向 调用 者 函数 返回 构建 的 模型 。 
最 后 检查 一 下 模型 的 效果 ， 看 看 回归 常数 和 系数 的 值 ， 如 图 10-2 所 示 。 























Model Itercept [ 0.00116188] 


Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 
Coefficient 


O0 0 *J O0 wv unre 
" w wm uw 9 w"» Ww Ww uw 
JHH 
$8r:2? 


gz 
BR 


.004 








现在 看 看 在 训练 集 上 模型 执行 的 效果 如 何 。 


print "Mo 


del worth on train data" 





model wor 


th(model,x train,y train) 








我 们 调用 model wortn 函数 来 查看 模型 的 效果 ， 这 个 函数 打印 输出 了 平均 绝对 误差 
和 均 方 误差 的 值 。 


均 方 误差 定义 公式 如 下 。 


bee os 
1240 y) 
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平均 绝对 误差 定义 公式 如 下 。 


^5 v.p 
22415; 








均 方 误差 对 异常 点 十 分 敏感 ， 而 平均 绝对 误差 是 种 更 为 强健 的 指标 。 我 们 看 看 训练 身 
上 模型 的 效果 ， 如 图 10-3 所 示 。 

















再 看 看 dev 集 上 模型 的 效果 ， 如 图 10-4 所 示 


Model worth on dev data 





Mean absolute error = 8.00 



































Mean squared error = 8.00 
图 10-3 10-4 
10.3.4. 更 多 内 容 
我 们 可 以 把 正则 化 加 入 到 随机 梯度 下 降 框 架 中 ， 回 顾 一 下 前 面 章节 介绍 过 的 岭 回归 的 
代价 函数 。 





n 


2 
m m 
2 
2X -2xw,| ta, 
i-l j=1 j=1 


加 入 一 个 平方 损失 函数 的 扩展 版 ， 再 加 上 正则 化 项 一 一 权重 的 平方 和 ， 把 这 些 都 加 到 
梯度 下 降 的 过 程 中 ， 设 定 R(W) 表示 正则 化 项 ， 现 在 权重 的 更 新 公式 如 下 所 示 。 
WiH=WDFI1CV Lf w ), ya (V, RW))) 


如 你 所 见 ， 现 在 公式 里 包含 了 关于 权重 向 量 w 的 损失 函数 的 导数 ， 还 有 关于 权 习 






































EIE 
则 化 项 的 导数 也 出 现在 权重 更 新 规则 里 。 

我 们 编写 一 个 包含 正则 化 的 新 函数 用 来 建 模 。 
def build model regularized(x,y): 

estimator 
loss", 






































- SG 





DRegressor(n iter = 10,shuffle-True,loss = "squared. 
learning rate-'constant',eta0-0.01,fit intercept-True, 
penalty-'12',alpha-0.01) 


\ 
estimator.fit (x,y) 


return estimator 
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在 主 函数 main 里 通过 以 下 代码 来 调用 这 个 函数 。 


model = build model regularized(x train,y train) 
inspect model (model) 





我 们 注意 一 下 它 和 之 前 的 建 模 方 法 所 传递 参数 的 不 同 之 处 。 


estimator = SGDRegressor(n iter = 10,shuffle-True,loss = "squared 
loss", learning rate-'constant',eta0-0.01,fit intercept-True, \ 
penalty-'12',alpha-0.01) 





之 前 的 方法 里 我 们 设置 的 penalty 值 为 none， 现 在 加 入 了 L2 惩罚 。 另 外 ， 我 们 用 
alpha 参数 设 定 其 值 为 0.01。 看 一 下 输出 的 系数 结果 ， 如 图 10-5 所 示 。 


y 





Model Itercept [ 3.49353155e-15] 


Coefficient 1 = 41.826 
Coefficient 2 - 0.000 
Coefficient 3 = 73.811 
Coefficient 4 = -0.000 
Coefficient 5 = -0.000 
Coefficient 6 - 58.613 
Coefficient 7 - 0.000 
Coefficient 8 - 0.000 
Coefficient 9 - 0.000 
Coefficient 10 -0.000 


Coefficient 11 
Coefficient 12 
Coefficient 13 
Coefficient 14 
Coefficient 15 
Coefficient 16 
Coefficient 17 
Coefficient 18 
Coefficient 19 
Coefficient 20 
Coefficient 21 
Coefficient 22 
Coefficient 23 
Coefficient 24 
Coefficient 25 
Coefficient 26 


: 








Coefficient 27 -0.000 
Coefficient 28 = 56.245 
Coefficient 29 = 0.000 
Coefficient 30 = 84.775 
图 10-5 


E 则 化 和 混合 





LE 


从 图 中 可 以 看 出 工 2 正则 化 的 影响 : 许多 系数 被 设 为 0 值 。 类 似 地 ，L1 
f L1. L2 正则 化 的 弹性 网 络 也 能 作为 penalty 参数 的 值 。 


本 章 简介 里 曾 提 到 过 随机 梯度 下 降 与 其 说 是 一 种 方法 ， 不 如 说 是 一 个 框架 ， 其 他 的 线 




















性 模型 也 能 在 这 个 相 
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架 里 应 用 ， 只 需 对 损失 函数 做 些 改动 。 


























SVM 回归 模型 建 模 时 采用 e 不 敏感 损失 函数 ， 这 个 函数 定义 如 下 。 














usam] Oif | y, - f(x w) |«e 


























参阅 以 下 链接 了 解 更 多 能 传递 给 scikit-learn 里 的 SG 
的 内 容 ， 请 参见 : 














| y; — f(x%,)|— e otherwise 


D Regressor 的 不 同 参数 


http://scikit-learn.org/stable/modules/generated/sklearn.linear model.SGDRegressor.html . 




















10.3.5 参考 资料 
第 7 章 
第 7 章 























“机 器 学 习 2” 中 7.378 "5521 L2 缩减 回归 一 一 岭 














10.4 用 随机 梯度 下 降解 决 分 类 问题 


EHE. 
ER 





i 
E 


的 讨论 限于 二 元 分 类 ， 目 标 变量 了 取 值 范围 为 {0,1)} 。 


分 类 问题 除了 反应 变量 不 同 ， 其 他 结构 都 和 回 

















E/K HJ 
是 分 类 变量 。 由 卫 















































“机 器 学 习 2” 中 7.2 节 “ 回 归 方法 预测 实数 值 ”的 相关 内 容 。 


回归 ”的 相关 内 容 。 








归 问 题 类 似 。 分 类 问题 结构 中 ， 反 应 变 
其 自身 性 质 ， 我 们 需要 不 一 样 的 损失 函数 来 评估 错误 预测 的 代价 。 本 














为 了 得 到 合适 的 权重 向 量 ， 我 们 在 更 新 权重 规则 里 使 用 损失 函数 的 导数 。 


scikit-learn 里 的 SGD classifier 类 提供 了 很 多 损失 函数 ， 不 过 本 章 主要 介绍 









































log 损失 函数 ， 适合 














对 于 如 下 形式 的 数据 ， 逻 和 辑 回归 能 适 配 线性 模型 。 


我 们 有 一 个 通 月 











于 逻辑 回归 。 




















W'x 
的 设 定 ， 回 归 常 数 被 设置 为 权重 向 量 的 第 

















我 们 应 用 逻辑 回归 函数 来 获取 预测 值 ， 公 式 如 下 。 





e -w Xi 


F(w,x)- 
1 


























1 维 。 对 于 二 元 分 类 问题 ， 











值 趋 近 于 1。 反 之 对 于 很 大 





上 式 也 被 称 为 sigmoid KG x 为 很 大 的 正 数 时 ， 函 数 返回 
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的 负数 ， 函 数值 趋 近 于 0。 这样， 我们 可 以 定义 如 下 的 log 损失 函数 。 


把 上 式 加 入 到 梯度 下 降 的 权重 更 新 规则 里 ， 就 可 以 得 到 合适 的 权重 向 量 。 


L(w, x) 2 —y;log( (w, x) - (— y;)logd — F(w,x;)) 















































参阅 以 下 链接 可 以 获取 scikit-learn 里 的 log 损失 函数 的 更 多 信息 ， 请 参见 : 











http://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html。 


了 解 了 这 些 知识 ， 我 们 可 以 深入 地 了 解 基 于 随机 梯度 下 降 的 分 类 问题 。 
10.4.1 准备 工作 








本 节 使 








使 用 sci 








kit-learn 里 实现 的 随机 梯度 下 降 分 类 算法 ， 和 上 一 节 的 部 分 内 容 一 












































样 , 我 们 使 用 sk1 











arn.dataset 模块 里 的 make classification 生成 数据 来 演示 随 








机 梯度 下 降解 决 分 类 问题 。 
操作 方法 


10.4.2 











我 们 


from 
from 
from 


from 


impo 








先 用 一 个 简单 的 示例 来 演示 如 何 构建 一 个 随机 梯度 下 降 的 分 3 
先 加 载 必需 的 库 ， 然 后 编写 一 个 函数 来 生成 预测 器 和 反应 变量 来 演示 





Sklearn 
Sklearn 
Sklearn 


Sklearn 


rt numpy 

















回归 问题 。 














.datasets import make classification 
.netrics import accuracy score 

.cross validation import train test split 
.linear model import SGDClassifier 


as np 


def get data(): 


mn 


Make a sample classification dataset 


Returns 


nm 


: Independent variable y, dependent variable x 


no features - 30 


redundant features - int(0.1*no features) 


informative features - int(0.6*no features) 


repeated. 





features - int(0.1*no features) 


x,y = make classification (n samples-1000,n features-no V 
features,flip y-0.03,^ 





n informative = informative features, n redundant =\ 


redundant features \ 
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rn_ repeated = repeated features,random state-7) 
return x,y 











接着 编写 一 个 能 够 帮助 我 们 构建 、 验 证 和 检测 模型 的 函数 。 




















def build model(x,y,x dev,y dev): 
estimator = SGDClassifier(n iter-50,shuffle-True,loss-"log", \ 
learning rate = "constant",eta0-0.0001,fit \ 
intercept-True, penalty-2"none") 





estimator.fit(x,y) 
train predcited = estimator.predict (x) 
train score - accuracy score(y,train predcited) 





dev predicted = estimator.predict (x dev) 
dev score = accuracy score(y dev,dev predicted) 





print 
print "Training Accuracy = $0.2f Dev Accuracy = $0.2f"$(train ^ 
Score,dev score) 


























最 后 编写 main 函数 ， 用 它 调用 之 前 的 所 有 函数 。 














if name == " main ": 





x,y = get data() 

# 将 数据 划分 为 训练 集 、qev 集 和 测试 集 

x train,x test all,y train,y test all = train test split(x,y,test ^ 
size = 0.3,random state-9) 

x dev,x test,y dev,y test = train test split(x test all,y test ^ 
all,test size-0.3,random state-9) 











build model(x train,y train,x dev,y dev) 


10.4.3 ”工作 原理 


我 们 从 主 模块 开始 ， 先 用 get data 函数 获取 预测 器 属性 和 反应 属性 ， 在 其 内 部 ， 我 
们 调用 make_classification 数据 集 来 生成 训练 数据 。 



































def get data(): 
nono" 
Make a sample classification dataset 
Returns : Independent variable y, dependent variable x 
non ow 
no features - 30 
redundant features - int(0.1*no features) 
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informative features = int(0.6*no features) 

repeated features - int(0.1*no features) 

x,y = make classification(n samples-500,n features-no features,flip \ 
y-0.03,n informative = informative features, n redundant =\ 
redundant features,n repeated - repeated features,random state-7) 

return x,y 














我 们 来 看 下 传递 给 make classification 函数 的 各 个 参数 。 第 1 个 是 所 需 的 实例 
数量 ， 本 例 需 要 500 T p. $2 个 是 每 个 实例 需要 的 属 性 数量 ， 本 例 为 30。 第 3 个 参数 
flip y， 要 求 随机 互 换 实例 的 3%， 这 是 为 了 在 数据 中 产生 一 些 噪音 。 接 下 来 的 参数 指定 
了 从 30 个 特征 中 选择 具有 足够 的 信息 量 来 进行 分 类 的 特征 个 数 ， 我 们 设 定 为 特征 的 60%, 
也 就 是 30 个 特征 中 的 18 个 应 该 是 高 信息 量 的 。 再 下 一 个 参数 是 关于 元 余 参 数 的， 它们 产 
生 了 高 信息 量 特征 的 线性 组 合 以 构成 特征 之 间 的 关联 。 最 后 ， 重 复 特 征 是 从 高 信息 量 特征 
和 和 元 余 特 征 中 随机 选择 的 副本 。 

我 们 用 train test split 函数 把 数据 划分 为 训练 集 和 测试 集 ， 保 留 30% 的 数据 
来 测试 。 
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# 将 数据 划分 为 训练 集 、dev 集 和 测试 集 
x train,x test all,y train,y test all = train test split(x,y,test 
size = 0.3,random state-9) 
































接着 再 次 调用 train test split 函数 把 测试 集 数据 划分 为 dev 集 和 测试 集 。 








x dev,x test,y dev,y test = train test split(x test all,y test 
all,test size-0.3,random state-9) 























有 了 建 模 、 评 估 和 测试 所 需 的 数据 ， 我 们 接着 开始 建 模 。 








build model(x train,y train,x dev,y dev) 














f£ build model 函数 中 ， 我 们 调用 了 sciki-learn 的 SGDClassifier 类 来 构 
建 随机 梯度 下 降 方法 。 














estimator = SGDClassifier(n iter-50,shuffle-True,loss-"log"N 
learning rate-'constant',eta0-0.0001,fit \ 
intercept-True, penalty-'none') 


























请 注意 我 们 使 用 的 参数 。 第 1 个 是 为 了 更 新 权重 值 所 需 遍 历数 据 集 的 次 数 ， 本 例 设 定 
为 50 次 迭代 。 和 感知 器 一 样 ， 壳 历 所 有 的 记录 一 遍 之 后 ， 要 进行 下 一 轮 途 代 时 ， 我 们 要 把 
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输入 记录 搅乱 























任务 。 我们 用 learning rate 参数 来 指定 学 习 速 率 eta 为 常数 类 型 ， 用 

















这 里 的 shuffle 参数 就 起 到 这 个 作用 ， 它 的 默认 值 是 True， 这 里 把 它 写 
出 来 是 出 于 讲解 的 需要 。1oss 参数 指定 采用 log 损失 函数 ,我 们 要 完成 的 是 一 个 逻辑 回 


eee 





H 
ta0 参数 指定 




















学 习 速 率 的 值 。 因 为 没有 对 数据 采用 平均 值 进行 中 心 化 ， 我 们 还 得 适 配 回归 常数 。 最 后 ， 





























penalty 参数 控制 所 需 的 缩减 类 型 ， 本 例 无 需 进行 缩减 ， 因 而 使 用 了 “none” 字 符 串 。 

















我 们 对 预测 器 和 反应 变量 调用 fit 函数 来 建 模 ， 然 后 用 训练 集 和 dev 集 来 评估 模型 


效果 。 


estimator.fit(x,y) 
train predcited = estimator.predict (x) 
train score - accuracy score(y,train predcited) 
dev predicted = estimator.predict (x dev) 








dev score - accuracy score(y dev,dev predicted) 


print 
print "Training Accuracy = $0.2f Dev Accuracy = $0.2f"$ 


Score,dev score) 





最 后 看 下 精度 评分 结果 ， 如 图 10-6 所 示 。 





Training Accuracy = 9.83 Dev Accuracy = 0.82 








图 10-6 








10.4.4 更 多 内 容 














正则 化 、L1、L2 或 者 弹性 网 络 ， 都 可 用 于 SGD 分 类 ， 这 个 过 程 和 回归 问题 9 











样 的 ， 因 此 不 再 袭 述 ， 请 参阅 上 一 节 的 相关 内 容 。 

本 节 示 例 中 的 学 习 速 率 eta 是 一 个 常数 ， 这 并 不 是 必需 的 。 在 每 次 迭 
值 可 以 逐渐 减 小 。 学 习 速 率 的 参数 learning rate 可 以 被 设置 为 字符 串 
*invscaling", 请 参阅 以 下 scikit 文档 的 链接 。 














http://scikit-learn.org/stable/modules/sgd.html - 





参数 的 具体 情况 如 下 。 
estimator = SGDClassifier(n iter-50,shuffle-True,loss-"log" 





(train \ 

















的 是 





mE 


代 过 程 中 ，eta 
“optimal” BÀ 





N 





learning rate-'constant',eta0-0.0001,fit intercept-True, p 


nalty-'none') 
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我 们 用 fit 方法 来 建 模 ， 之 前 提 到 过 ， 在 大 规模 的 机 器 学 习 里 ， 所 有 的 数据 不 是 一 下 
全 部 都 可 用 。 在 批量 接收 到 数据 的 过 程 中 ， 我 们 要 使 用 partial fit 方法 代替 fit, H 
fit 方法 会 重新 初始 化 权重 ， 丢 失 之 前 批 次 数据 产生 的 所 有 的 训练 结果 。 请 参阅 以 下 链接 
了 解 更 多 partial fit 的 相关 内 容 : http://scikit-learn.org/stable/modules/generated/ 
sklearn.linear model.SGDClassifier.html#sklearn.linear model.SGDClassifier.partial fit. 


10.4.5 参考 资料 
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回归 ”的 相关 内 容 。 
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中 的 相关 内 容 。 
































异步 社区 的 来 历 

异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 
出 版 社 旗下 IT 专业 图 书 旗 舰 社区 ， 于 2015 年 8 
月 上 线 运 营 。 

异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 
IT 专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 
出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 
提供 最 新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 
的 平台 。 








社区 里 都 有 什么 ? 


购买 图 书 
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B www.epubit.com.cn 








我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技术 、 数 据 科学 等 领域 有 众多 经 典 畅销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 故 





布 新 书 书 讯 。 

















下 载 资 源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 








与 作 译 者 互动 











很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 
作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书 库 发 货 ， 电 子 书 提供 


多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 
用 户 帐户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ， 在 。 


入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 


E ss 


特别 优惠 


购买 本 书 的 读者 专 享 异 步 社 区 购书 优惠 券 。 


使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 57AWG ， 然 后 点 击 “ 使 
用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 








纸 电 图 书 组 合 购买 




















M 











社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 
方式 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 





社区 里 还 可 以 做 什么 ? 


TEASE 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘 
误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读 








软 技能 : 代码 之 外 的 生存 指南 
[354986 Z. FSE ( John Z. Sonmez ) (作者 ) 王 小 刚 GRE) — 杨 海 玲 EERS) 
e 6 9. 0K 






这 是 一 本 真正 从 “人 ” ( 而 非 技术 也 非 管 理 ) 的 角度 关注 软件 开发 人 员 自 身 发 展 的 书 。 书 中 论述 的 
包括 A 人 ”的 因素 ， 全 面 讲解 软件 行业 从 业 人 员 所 


程 到 精 耕 细 人 份 杀手 级 简历 ， 从 创 
就 到 与 如 何 与 “拖延 症 ” 做 斗争 ,甚至 
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电子 版 + 纸 质 版 Y 5900 














者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 
EE 











社区 提供 基于 Markdown 的 写作 环境 ， 





Iu 


欢 写作 的 您 可 以 在 此 一 试 身 手 ， 在 社区 里 分 享 您 的 技术 心得 


和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 
如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 特色 服务 。 
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您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
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Python 成 为 数据 科学 专用 语言 的 势头 越 来 越 迅 猛 。 


本 书 将 带 你 逐步 了 解 各 种 概念 ， 从 简单 的 算法 开始 ， 一 直到 最 复杂 的 数据 科学 武器 ， 从 而 能 高 效 地 进行 数 


据 挖 掘 并 从 中 获取 知识 。 


本 书 从 讲解 如 何在 数据 科学 中 应 用 Python 开始 ， 陆 
续 介 绍 了 Python 的 工作 环境 ， 如 何 用 Python 分 析 数 据 ， 
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方面 的 内 容 ， 这 些 都 是 一 个 成 功 的 数据 科学 专家 所 必需 掌 
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